diff --git a/.buildinfo b/.buildinfo
index f6ef2734a..d7833fa4a 100644
--- a/.buildinfo
+++ b/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
-# This file records the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 7a1276b8a4994f80f782c9e1dc560759
+# This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
+config: b658939d076bdeff988fb761020ea848
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/_modules/data_juicer.html b/_modules/data_juicer.html
index 14a7f406d..f984de1f8 100644
--- a/_modules/data_juicer.html
+++ b/_modules/data_juicer.html
@@ -11,7 +11,7 @@
 
   
       <script src="../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../_static/doctools.js?v=9a2dae69"></script>
       <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
diff --git a/_modules/data_juicer/analysis/collector.html b/_modules/data_juicer/analysis/collector.html
new file mode 100644
index 000000000..600463550
--- /dev/null
+++ b/_modules/data_juicer/analysis/collector.html
@@ -0,0 +1,188 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.collector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.collector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.collector</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">itertools</span><span class="w"> </span><span class="kn">import</span> <span class="n">chain</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.format</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_formatter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="TextTokenDistCollector">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">TextTokenDistCollector</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Tokenize and collect distribution of tokens for given</span>
+<span class="sd">    dataset with a specified tokenizer.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TextTokenDistCollector.__init__">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tokenizer: tokenizer name on huggingface</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="p">,</span> <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TextTokenDistCollector.collect">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">collect</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                <span class="n">data_path</span><span class="p">,</span>
+                <span class="n">text_key</span><span class="p">,</span>
+                <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s1">&#39;torch.distributions.Categorical&#39;</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Tokenize and collect tokens distribution of input dataset</span>
+<span class="sd">        :param data_path: path to input dataset.</span>
+<span class="sd">        :param text_key: field keys that will be considered into token counts.</span>
+<span class="sd">        :param num_proc: number of processes to count tokens.</span>
+<span class="sd">        :return: token distribution.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">formatter</span> <span class="o">=</span> <span class="n">load_formatter</span><span class="p">(</span><span class="n">data_path</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">formatter</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">(</span><span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">text_key</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">text_key</span><span class="si">}</span><span class="s1"> not find in dataset&#39;</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">prepare_tokenizer</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">text_key</span><span class="p">,</span>
+        <span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            Prepare a tokenizer function for dataset.</span>
+<span class="sd">            :param tokenizer: a tokenizer to tokenize sample.</span>
+<span class="sd">            :param text_key: field keys that will be</span>
+<span class="sd">                considered into token counts.</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">_tokenize_fn</span><span class="p">(</span><span class="n">example</span><span class="p">,</span> <span class="p">):</span>
+                <span class="n">example</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span><span class="n">example</span><span class="p">[</span><span class="n">text_key</span><span class="p">],</span>
+                                    <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">example</span>
+
+            <span class="k">return</span> <span class="n">_tokenize_fn</span>
+
+        <span class="n">tokenize_proc</span> <span class="o">=</span> <span class="n">prepare_tokenizer</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">text_key</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">tokenize_proc</span><span class="p">,</span>
+                              <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
+                              <span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s1">&#39;tokenize </span><span class="si">{</span><span class="n">data_path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">token_count</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+        <span class="n">token_ids</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+            <span class="nb">list</span><span class="p">(</span><span class="n">chain</span><span class="o">.</span><span class="n">from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="s1">&#39;input_ids&#39;</span><span class="p">])))</span>
+        <span class="n">indices</span><span class="p">,</span> <span class="n">counts</span> <span class="o">=</span> <span class="n">token_ids</span><span class="o">.</span><span class="n">unique</span><span class="p">(</span><span class="n">return_counts</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">token_count</span><span class="o">.</span><span class="n">scatter_</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">counts</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">token_count</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+        <span class="n">dist</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">distributions</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">token_count</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">dist</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/column_wise_analysis.html b/_modules/data_juicer/analysis/column_wise_analysis.html
index 6d276ed4e..7f6ff9d58 100644
--- a/_modules/data_juicer/analysis/column_wise_analysis.html
+++ b/_modules/data_juicer/analysis/column_wise_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,6 +90,8 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 <span class="kn">from</span><span class="w"> </span><span class="nn">.overall_analysis</span><span class="w"> </span><span class="kn">import</span> <span class="n">OverallAnalysis</span>
 
 
+<div class="viewcode-block" id="get_row_col">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">get_row_col</span><span class="p">(</span><span class="n">total_num</span><span class="p">,</span> <span class="n">factor</span><span class="o">=</span><span class="mi">2</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Given the total number of stats figures, get the &quot;best&quot; number of rows and</span>
@@ -128,16 +130,17 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
     <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">total_num</span><span class="p">):</span>
         <span class="n">grids</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">i</span> <span class="o">//</span> <span class="n">now_col</span><span class="p">,</span> <span class="n">i</span> <span class="o">%</span> <span class="n">now_col</span><span class="p">))</span>
 
-    <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_row</span><span class="p">),</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_col</span><span class="p">),</span> <span class="n">grids</span>
+    <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_row</span><span class="p">),</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_col</span><span class="p">),</span> <span class="n">grids</span></div>
+
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">ColumnWiseAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on each column of stats respectively.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset</span><span class="p">,</span>
                  <span class="n">output_path</span><span class="p">,</span>
@@ -173,7 +176,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">show_percentiles</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">skip_export</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply analysis and draw the analysis figure for stats.</span>
@@ -291,7 +294,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_hist">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">draw_hist</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Draw the histogram for the data.</span>
@@ -352,7 +355,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_box">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">draw_box</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Draw the box plot for the data.</span>
@@ -403,7 +406,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_wordcloud">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">draw_wordcloud</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">word_list</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
         <span class="n">word_nums</span> <span class="o">=</span> <span class="p">{}</span>
diff --git a/_modules/data_juicer/analysis/diversity_analysis.html b/_modules/data_juicer/analysis/diversity_analysis.html
index 040686ef9..4e60906ef 100644
--- a/_modules/data_juicer/analysis/diversity_analysis.html
+++ b/_modules/data_juicer/analysis/diversity_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,6 +88,8 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 <span class="c1"># Modify from self_instruct, please refer to</span>
 <span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
+<div class="viewcode-block" id="find_root_verb_and_its_dobj">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">tree_root</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Find the verb and its object closest to the root.</span>
@@ -108,11 +110,14 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
     <span class="k">for</span> <span class="n">child</span> <span class="ow">in</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">children</span><span class="p">:</span>
         <span class="k">return</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">child</span><span class="p">)</span>
     <span class="c1"># if no children satisfy the condition, return None</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
 
 
 <span class="c1"># Modify from self_instruct, please refer to</span>
 <span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
+<div class="viewcode-block" id="find_root_verb_and_its_dobj_in_string">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">find_root_verb_and_its_dobj_in_string</span><span class="p">(</span><span class="n">nlp</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">first_sent</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Find the verb and its object closest to the root of lexical tree of input</span>
@@ -131,9 +136,12 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
         <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span> <span class="o">=</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">sent</span><span class="o">.</span><span class="n">root</span><span class="p">)</span>
         <span class="k">if</span> <span class="n">first_sent</span> <span class="ow">or</span> <span class="p">(</span><span class="n">verb</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">noun</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">):</span>
             <span class="k">return</span> <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
 
 
+<div class="viewcode-block" id="get_diversity">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">get_diversity</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">top_k_verbs</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">top_k_nouns</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Given the lexical tree analysis result, return the diversity results.</span>
@@ -158,17 +166,18 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
     <span class="n">df</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s1">&#39;verb&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">sort_values</span><span class="p">(</span>
         <span class="s1">&#39;count&#39;</span><span class="p">,</span> <span class="n">ascending</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">head</span><span class="p">(</span><span class="n">top_k_nouns</span><span class="p">))</span><span class="o">.</span><span class="n">reset_index</span><span class="p">(</span><span class="n">drop</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">df</span>
+    <span class="k">return</span> <span class="n">df</span></div>
+
 
 
 <div class="viewcode-block" id="DiversityAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">DiversityAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply diversity analysis for each sample and get an overall analysis</span>
 <span class="sd">    result.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="DiversityAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method :param dataset: the dataset to be analyzed</span>
 <span class="sd">        :param output_path: path to store the analysis results :param</span>
@@ -183,7 +192,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 
 <div class="viewcode-block" id="DiversityAnalysis.compute">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">compute</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply lexical tree analysis on each sample.</span>
@@ -217,7 +226,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 
 <div class="viewcode-block" id="DiversityAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                 <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                 <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
diff --git a/_modules/data_juicer/analysis/draw.html b/_modules/data_juicer/analysis/draw.html
new file mode 100644
index 000000000..700b99410
--- /dev/null
+++ b/_modules/data_juicer/analysis/draw.html
@@ -0,0 +1,154 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.draw &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.draw</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.draw</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">matplotlib.pyplot</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">plt</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">seaborn</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">sns</span>
+
+
+<div class="viewcode-block" id="draw_heatmap">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">draw_heatmap</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">xlabels</span><span class="p">,</span> <span class="n">ylables</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">figsize</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">triangle</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Draw heatmap of input data with special lables.</span>
+
+<span class="sd">    :param data: input data, now support</span>
+<span class="sd">        [`list`, `tuple`, `numpy array`, &#39;torch tensor&#39;]</span>
+<span class="sd">    :param xlabels: x axis labels.</span>
+<span class="sd">    :param ylabels: y axis labels, if None, use xlabels.</span>
+<span class="sd">    :param figsize: figure size.</span>
+<span class="sd">    :param triangle: only display triangle.</span>
+<span class="sd">    :return: a plot figure.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">figsize</span> <span class="o">=</span> <span class="n">figsize</span> <span class="k">if</span> <span class="n">figsize</span> <span class="k">else</span> <span class="p">(</span><span class="mi">8</span> <span class="o">*</span> <span class="mf">2.5</span><span class="p">,</span> <span class="mi">6</span> <span class="o">*</span> <span class="mf">2.5</span><span class="p">)</span>
+    <span class="n">_</span><span class="p">,</span> <span class="n">ax</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="n">figsize</span><span class="p">)</span>
+    <span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">if</span> <span class="n">triangle</span><span class="p">:</span>
+        <span class="n">mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">triu</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">data</span><span class="p">))</span>
+    <span class="n">ax</span><span class="o">.</span><span class="n">tick_params</span><span class="p">(</span>
+        <span class="n">right</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">top</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">labelright</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">labeltop</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">sns</span><span class="o">.</span><span class="n">heatmap</span><span class="p">(</span><span class="n">data</span><span class="p">,</span>
+                <span class="n">ax</span><span class="o">=</span><span class="n">ax</span><span class="p">,</span>
+                <span class="n">cmap</span><span class="o">=</span><span class="s1">&#39;Oranges&#39;</span><span class="p">,</span>
+                <span class="n">annot</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">,</span>
+                <span class="n">linewidths</span><span class="o">=</span><span class="mf">.05</span><span class="p">,</span>
+                <span class="n">square</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">xticklabels</span><span class="o">=</span><span class="n">xlabels</span><span class="p">,</span>
+                <span class="n">yticklabels</span><span class="o">=</span><span class="n">ylables</span><span class="p">,</span>
+                <span class="n">annot_kws</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;size&#39;</span><span class="p">:</span> <span class="mi">8</span><span class="p">})</span>
+    <span class="n">plt</span><span class="o">.</span><span class="n">subplots_adjust</span><span class="p">(</span><span class="n">left</span><span class="o">=</span><span class="mf">.1</span><span class="p">,</span> <span class="n">right</span><span class="o">=</span><span class="mf">0.95</span><span class="p">,</span> <span class="n">bottom</span><span class="o">=</span><span class="mf">0.22</span><span class="p">,</span> <span class="n">top</span><span class="o">=</span><span class="mf">0.95</span><span class="p">)</span>
+    <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">gcf</span><span class="p">()</span>
+    <span class="n">plt</span><span class="o">.</span><span class="n">show</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">fig</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/measure.html b/_modules/data_juicer/analysis/measure.html
new file mode 100644
index 000000000..c1e319cba
--- /dev/null
+++ b/_modules/data_juicer/analysis/measure.html
@@ -0,0 +1,372 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.measure &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.measure</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.measure</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">td</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;td&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.distributions&#39;</span><span class="p">)</span>
+<span class="n">F</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;F&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.nn.functional&#39;</span><span class="p">)</span>
+
+<span class="n">stats</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;stats&#39;</span><span class="p">,</span> <span class="s1">&#39;scipy.stats&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="Measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.Measure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Measure</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Base class for Measure distribution.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;base&#39;</span>
+
+<div class="viewcode-block" id="Measure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">pass</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">measure</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_convert_to_tensor</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch tensor.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch tensor</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_convert_to_categorical</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch Categorical.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch Categorical</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">p</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">p</span><span class="p">))</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_convert_to_ndarray</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch tensor.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch tensor</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="KLDivMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">KLDivMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Kullback-Leibler divergence.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;kl_divergence&#39;</span>
+
+<div class="viewcode-block" id="KLDivMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> \
+            <span class="s1">&#39;The two inputs have different shape:&#39;</span> \
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">return</span> <span class="n">F</span><span class="o">.</span><span class="n">kl_div</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">logits</span><span class="p">,</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="p">,</span> <span class="n">log_target</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">reduction</span><span class="o">=</span><span class="s1">&#39;sum&#39;</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="JSDivMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">JSDivMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Jensen-Shannon divergence.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;js_divergence&#39;</span>
+
+<div class="viewcode-block" id="JSDivMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span>  \
+            <span class="s1">&#39;The two inputs have different shape:&#39;</span> \
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="n">m</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">p</span> <span class="o">+</span> <span class="n">q</span><span class="p">)</span>
+        <span class="n">kl_p</span> <span class="o">=</span> <span class="n">KLDivMeasure</span><span class="p">()(</span><span class="n">p</span><span class="p">,</span> <span class="n">m</span><span class="p">)</span>
+        <span class="n">kl_q</span> <span class="o">=</span> <span class="n">KLDivMeasure</span><span class="p">()(</span><span class="n">q</span><span class="p">,</span> <span class="n">m</span><span class="p">)</span>
+        <span class="n">js</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">kl_p</span> <span class="o">+</span> <span class="n">kl_q</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">js</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CrossEntropyMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">CrossEntropyMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Cross-Entropy.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;cross_entropy&#39;</span>
+
+<div class="viewcode-block" id="CrossEntropyMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> \
+            <span class="s1">&#39;The two inputs have different shape: &#39;</span>\
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">return</span> <span class="n">F</span><span class="o">.</span><span class="n">cross_entropy</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">logits</span><span class="p">,</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="p">,</span> <span class="n">reduction</span><span class="o">=</span><span class="s1">&#39;sum&#39;</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="EntropyMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">EntropyMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Entropy.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;entropy&#39;</span>
+
+<div class="viewcode-block" id="EntropyMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">p</span><span class="o">.</span><span class="n">entropy</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">RelatedTTestMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure T-Test for two related distributions on their histogram of the same</span>
+<span class="sd">    bins.</span>
+
+<span class="sd">    Ref:</span>
+<span class="sd">    https://en.wikipedia.org/wiki/Student%27s_t-test</span>
+
+<span class="sd">    For continuous features or distributions, the input could be dataset stats</span>
+<span class="sd">    list.</span>
+<span class="sd">    For discrete features or distributions, the input could be the tags or the</span>
+<span class="sd">    categories list.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;t-test&#39;</span>
+
+<div class="viewcode-block" id="RelatedTTestMeasure.stats_to_hist">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">stats_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+
+        <span class="c1"># get common maximum number of data samples, and max/min values</span>
+        <span class="n">max_data_num</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+        <span class="n">min_val</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">min</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+        <span class="n">max_val</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">max</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">max</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+
+        <span class="c1"># get a recommended number of bins</span>
+        <span class="n">rec_bins</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">max_data_num</span><span class="p">)),</span> <span class="mi">10</span><span class="p">)</span>
+
+        <span class="c1"># get the common bin edges</span>
+        <span class="n">common_p</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="p">[</span><span class="n">min_val</span><span class="p">,</span> <span class="n">max_val</span><span class="p">])</span>
+        <span class="n">hist_p</span><span class="p">,</span> <span class="n">bin_edges</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">histogram</span><span class="p">(</span><span class="n">common_p</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="n">rec_bins</span><span class="p">)</span>
+        <span class="c1"># restore the hist of the original p</span>
+        <span class="n">hist_p</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">-=</span> <span class="mi">1</span>
+        <span class="n">hist_p</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">-=</span> <span class="mi">1</span>
+        <span class="c1"># get the hist of the original q using the common bin edges</span>
+        <span class="n">hist_q</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">histogram</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="n">bin_edges</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">,</span> <span class="n">bin_edges</span></div>
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure.category_to_hist">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">category_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">flatten_list</span><span class="p">(</span><span class="n">lst</span><span class="p">):</span>
+            <span class="n">res</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">lst</span><span class="p">:</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+                    <span class="n">res</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">flatten_list</span><span class="p">(</span><span class="n">s</span><span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">res</span>
+
+        <span class="c1"># flatten the list</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="n">flatten_list</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="n">flatten_list</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+
+        <span class="c1"># get the common categories</span>
+        <span class="n">cat_p</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">cat_q</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="n">cat_common</span> <span class="o">=</span> <span class="n">cat_p</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">cat_q</span><span class="p">)</span>
+
+        <span class="c1"># get category distributions</span>
+        <span class="n">count_p</span> <span class="o">=</span> <span class="p">{</span><span class="n">cat</span><span class="p">:</span> <span class="mi">0</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">cat_common</span><span class="p">}</span>
+        <span class="n">count_q</span> <span class="o">=</span> <span class="p">{</span><span class="n">cat</span><span class="p">:</span> <span class="mi">0</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">cat_common</span><span class="p">}</span>
+        <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">p</span><span class="p">:</span>
+            <span class="n">count_p</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">q</span><span class="p">:</span>
+            <span class="n">count_q</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="c1"># only keep distribution values sorted by counts</span>
+        <span class="n">sorted_cat</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">count_p</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
+        <span class="n">sorted_cat</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">it</span><span class="p">:</span> <span class="n">it</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">sorted_cat</span> <span class="o">=</span> <span class="p">[</span><span class="n">it</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">it</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+        <span class="c1"># get the value dist</span>
+        <span class="n">hist_p</span> <span class="o">=</span> <span class="p">[</span><span class="n">count_p</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+        <span class="n">hist_q</span> <span class="o">=</span> <span class="p">[</span><span class="n">count_q</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">,</span> <span class="n">count_p</span><span class="p">,</span> <span class="n">count_q</span><span class="p">,</span> <span class="n">sorted_cat</span></div>
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        :param p: the first feature or distribution. (stats/tags/categories)</span>
+<span class="sd">        :param q: the second feature or distribution. (stats/tags/categories)</span>
+<span class="sd">        :return: the T-Test results object -- ([ref](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult))  # noqa: E501</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">ele</span> <span class="o">=</span> <span class="n">p</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">while</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ele</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="n">ele</span> <span class="o">=</span> <span class="n">ele</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ele</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="c1"># discrete tags or categories</span>
+            <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">category_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># continuous stats</span>
+            <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)[:</span><span class="mi">2</span><span class="p">]</span>
+
+        <span class="c1"># compute the t-test and pval for hist_p and hist_q</span>
+        <span class="n">ttest_res</span> <span class="o">=</span> <span class="n">stats</span><span class="o">.</span><span class="n">ttest_rel</span><span class="p">(</span><span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">ttest_res</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/overall_analysis.html b/_modules/data_juicer/analysis/overall_analysis.html
index f8db011c0..0c47c8f83 100644
--- a/_modules/data_juicer/analysis/overall_analysis.html
+++ b/_modules/data_juicer/analysis/overall_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,13 +93,13 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">OverallAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on the overall stats, including mean, std, quantiles,</span>
 <span class="sd">    etc.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="OverallAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -129,7 +129,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis.refine_single_column">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">refine_single_column</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">col</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">col</span><span class="o">.</span><span class="n">dtype</span> <span class="o">!=</span> <span class="s1">&#39;object&#39;</span><span class="p">:</span>
             <span class="c1"># not an object, return directly</span>
@@ -152,7 +152,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="p">[],</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">skip_export</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply overall analysis on the whole dataset based on the describe</span>
diff --git a/_modules/data_juicer/config/config.html b/_modules/data_juicer/config/config.html
index f98779731..e72d0751b 100644
--- a/_modules/data_juicer/config/config.html
+++ b/_modules/data_juicer/config/config.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="init_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.init_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_configs">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">init_configs</span><span class="p">(</span><span class="n">args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">which_entry</span><span class="p">:</span> <span class="nb">object</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    initialize the jsonargparse parser and parse configs from one of:</span>
@@ -481,6 +481,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 
+<div class="viewcode-block" id="update_ds_cache_dir_and_related_vars">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">update_ds_cache_dir_and_related_vars</span><span class="p">(</span><span class="n">new_ds_cache_path</span><span class="p">):</span>
     <span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
 
@@ -498,9 +500,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
         <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_DOWNLOADED_DATASETS_PATH</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">EXTRACTED_DATASETS_DIR</span><span class="p">)</span>
     <span class="n">config</span><span class="o">.</span><span class="n">EXTRACTED_DATASETS_PATH</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span>
-        <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span><span class="p">)</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span><span class="p">)</span></div>
 
 
+
+<div class="viewcode-block" id="init_setup_from_cfg">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">init_setup_from_cfg</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Do some extra setup tasks after parsing config file or command line.</span>
@@ -636,9 +641,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="p">}</span>
     <span class="n">cfg</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">update_op_attr</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span> <span class="n">op_attrs</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">cfg</span>
+    <span class="k">return</span> <span class="n">cfg</span></div>
+
 
 
+<div class="viewcode-block" id="load_ops_with_stats_meta">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">load_ops_with_stats_meta</span><span class="p">():</span>
     <span class="kn">import</span><span class="w"> </span><span class="nn">pkgutil</span>
 
@@ -649,9 +657,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="p">}</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">filter_name</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">pkgutil</span><span class="o">.</span><span class="n">iter_modules</span><span class="p">(</span><span class="n">djfilter</span><span class="o">.</span><span class="n">__path__</span><span class="p">)</span>
                      <span class="k">if</span> <span class="n">filter_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">NON_STATS_FILTERS</span><span class="o">.</span><span class="n">modules</span><span class="p">]</span>
     <span class="n">meta_ops</span> <span class="o">=</span> <span class="p">[{</span><span class="n">op_name</span><span class="p">:</span> <span class="p">{}}</span> <span class="k">for</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="n">TAGGING_OPS</span><span class="o">.</span><span class="n">modules</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">stats_filters</span> <span class="o">+</span> <span class="n">meta_ops</span>
+    <span class="k">return</span> <span class="n">stats_filters</span> <span class="o">+</span> <span class="n">meta_ops</span></div>
+
 
 
+<div class="viewcode-block" id="update_op_attr">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_op_attr">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">update_op_attr</span><span class="p">(</span><span class="n">op_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span> <span class="n">attr_dict</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">attr_dict</span><span class="p">:</span>
         <span class="k">return</span> <span class="n">op_list</span>
@@ -667,7 +678,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
                         <span class="n">args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">attr_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
             <span class="n">op</span><span class="p">[</span><span class="n">op_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">args</span>
         <span class="n">updated_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">updated_op_list</span>
+    <span class="k">return</span> <span class="n">updated_op_list</span></div>
+
 
 
 <span class="k">def</span><span class="w"> </span><span class="nf">_collect_config_info_from_class_docs</span><span class="p">(</span><span class="n">configurable_ops</span><span class="p">,</span> <span class="n">parser</span><span class="p">):</span>
@@ -692,6 +704,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="k">return</span> <span class="n">op_params</span>
 
 
+<div class="viewcode-block" id="sort_op_by_types_and_names">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">sort_op_by_types_and_names</span><span class="p">(</span><span class="n">op_name_classes</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Split ops items by op type and sort them to sub-ops by name, then concat</span>
@@ -717,9 +731,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">ops_sorted_by_types</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">mapper_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">filter_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span>
         <span class="n">deduplicator_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">selector_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">grouper_ops</span><span class="p">)</span> <span class="o">+</span> \
         <span class="nb">sorted</span><span class="p">(</span><span class="n">aggregator_ops</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">ops_sorted_by_types</span>
+    <span class="k">return</span> <span class="n">ops_sorted_by_types</span></div>
+
 
 
+<div class="viewcode-block" id="update_op_process">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_op_process">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">update_op_process</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="n">parser</span><span class="p">):</span>
     <span class="n">op_keys</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
     <span class="n">args</span> <span class="o">=</span> <span class="p">[</span>
@@ -786,9 +803,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">temp_args</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;--auto&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">temp_args</span>
     <span class="n">temp_parser</span><span class="o">.</span><span class="n">parse_args</span><span class="p">(</span><span class="n">temp_args</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">cfg</span>
+    <span class="k">return</span> <span class="n">cfg</span></div>
 
 
+
+<div class="viewcode-block" id="namespace_to_arg_list">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">namespace_to_arg_list</span><span class="p">(</span><span class="n">namespace</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">includes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">excludes</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
     <span class="n">arg_list</span> <span class="o">=</span> <span class="p">[]</span>
 
@@ -806,9 +826,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
             <span class="n">arg_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;--</span><span class="si">{</span><span class="n">concat_key</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
             <span class="n">arg_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">value</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">arg_list</span>
+    <span class="k">return</span> <span class="n">arg_list</span></div>
+
 
 
+<div class="viewcode-block" id="config_backup">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.config_backup">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">config_backup</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">cfg</span><span class="o">.</span><span class="n">config</span><span class="p">:</span>
         <span class="k">return</span>
@@ -818,9 +841,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Back up the input config file [</span><span class="si">{</span><span class="n">cfg_path</span><span class="si">}</span><span class="s1">] into the &#39;</span>
                 <span class="sa">f</span><span class="s1">&#39;work_dir [</span><span class="si">{</span><span class="n">work_dir</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">target_path</span><span class="p">):</span>
-        <span class="n">shutil</span><span class="o">.</span><span class="n">copyfile</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">,</span> <span class="n">target_path</span><span class="p">)</span>
+        <span class="n">shutil</span><span class="o">.</span><span class="n">copyfile</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">,</span> <span class="n">target_path</span><span class="p">)</span></div>
 
 
+
+<div class="viewcode-block" id="display_config">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.display_config">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">display_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
     <span class="kn">import</span><span class="w"> </span><span class="nn">pprint</span>
 
@@ -838,11 +864,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">table</span> <span class="o">=</span> <span class="n">tabulate</span><span class="p">(</span><span class="n">config_table</span><span class="p">,</span> <span class="n">headers</span><span class="o">=</span><span class="n">table_header</span><span class="p">,</span> <span class="n">tablefmt</span><span class="o">=</span><span class="s1">&#39;fancy_grid&#39;</span><span class="p">)</span>
 
     <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Configuration table: &#39;</span><span class="p">)</span>
-    <span class="nb">print</span><span class="p">(</span><span class="n">table</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="n">table</span><span class="p">)</span></div>
+
 
 
 <div class="viewcode-block" id="export_config">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.export_config">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.export_config">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">export_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">,</span>
                   <span class="n">path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                   <span class="nb">format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;yaml&#39;</span><span class="p">,</span>
@@ -887,7 +914,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="merge_config">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.merge_config">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.merge_config">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">merge_config</span><span class="p">(</span><span class="n">ori_cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">,</span> <span class="n">new_cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Merge configuration from new_cfg into ori_cfg</span>
@@ -948,7 +975,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="prepare_side_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.prepare_side_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.prepare_side_configs">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">prepare_side_configs</span><span class="p">(</span><span class="n">ori_config</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Namespace</span><span class="p">,</span> <span class="n">Dict</span><span class="p">]):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    parse the config if ori_config is a string of a config file path with</span>
@@ -983,7 +1010,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="get_init_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.get_init_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.get_init_configs">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">get_init_configs</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Namespace</span><span class="p">,</span> <span class="n">Dict</span><span class="p">]):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    set init configs of datajucer for cfg</span>
diff --git a/_modules/data_juicer/core/monitor.html b/_modules/data_juicer/core/monitor.html
new file mode 100644
index 000000000..8a3fb1ef0
--- /dev/null
+++ b/_modules/data_juicer/core/monitor.html
@@ -0,0 +1,384 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.core.monitor &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.core.monitor</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">time</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">functools</span><span class="w"> </span><span class="kn">import</span> <span class="n">partial</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">multiprocessing</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_context</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.resource_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">get_cpu_count</span><span class="p">,</span>
+                                              <span class="n">get_cpu_utilization</span><span class="p">,</span>
+                                              <span class="n">query_cuda_info</span><span class="p">,</span> <span class="n">query_mem_info</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="resource_monitor">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.resource_monitor">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">resource_monitor</span><span class="p">(</span><span class="n">mdict</span><span class="p">,</span> <span class="n">interval</span><span class="p">):</span>
+    <span class="c1"># function to monitor the resource</span>
+    <span class="c1"># interval is the sampling interval</span>
+    <span class="n">this_states</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+        <span class="n">this_states</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">Monitor</span><span class="o">.</span><span class="n">monitor_current_resources</span><span class="p">())</span>
+        <span class="n">time</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="n">interval</span><span class="p">)</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">stop_sign</span> <span class="o">=</span> <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;stop&#39;</span><span class="p">]</span>
+        <span class="k">except</span> <span class="p">(</span><span class="ne">BrokenPipeError</span><span class="p">,</span> <span class="ne">FileNotFoundError</span><span class="p">):</span>
+            <span class="c1"># mdict crushes due to the main process is terminated already,</span>
+            <span class="c1"># which is not the fault here</span>
+            <span class="k">return</span>
+        <span class="k">if</span> <span class="n">stop_sign</span><span class="p">:</span>
+            <span class="k">break</span>
+    <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">this_states</span></div>
+
+
+
+<div class="viewcode-block" id="Monitor">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Monitor</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Monitor resource utilization and other information during the data</span>
+<span class="sd">    processing.</span>
+
+<span class="sd">    Resource utilization dict: (for each func)</span>
+<span class="sd">    &#39;&#39;&#39;python</span>
+<span class="sd">    {</span>
+<span class="sd">        &#39;time&#39;: 10,</span>
+<span class="sd">        &#39;sampling interval&#39;: 0.5,</span>
+<span class="sd">        &#39;resource&#39;: [</span>
+<span class="sd">            {</span>
+<span class="sd">                &#39;timestamp&#39;: xxx,</span>
+<span class="sd">                &#39;CPU count&#39;: xxx,</span>
+<span class="sd">                &#39;GPU free mem.&#39;: xxx.</span>
+<span class="sd">                ...</span>
+<span class="sd">            },</span>
+<span class="sd">            {</span>
+<span class="sd">                &#39;timestamp&#39;: xxx,</span>
+<span class="sd">                &#39;CPU count&#39;: xxx,</span>
+<span class="sd">                &#39;GPU free mem.&#39;: xxx,</span>
+<span class="sd">                ...</span>
+<span class="sd">            },</span>
+<span class="sd">        ]</span>
+<span class="sd">    }</span>
+<span class="sd">    &#39;&#39;&#39;</span>
+
+<span class="sd">    Based on the structure above, the resource utilization analysis result will</span>
+<span class="sd">    add several extra fields on the first level:</span>
+<span class="sd">    &#39;&#39;&#39;python</span>
+<span class="sd">    {</span>
+<span class="sd">        &#39;time&#39;: 10,</span>
+<span class="sd">        &#39;sampling interval&#39;: 0.5,</span>
+<span class="sd">        &#39;resource&#39;: [...],</span>
+<span class="sd">        &#39;resource_analysis&#39;: {</span>
+<span class="sd">            &#39;GPU free mem.&#39;: {</span>
+<span class="sd">                &#39;max&#39;: xxx,</span>
+<span class="sd">                &#39;min&#39;: xxx,</span>
+<span class="sd">                &#39;avg&#39;: xxx,</span>
+<span class="sd">            },</span>
+<span class="sd">            ...</span>
+<span class="sd">        }</span>
+<span class="sd">    }</span>
+<span class="sd">    &#39;&#39;&#39;</span>
+<span class="sd">    Only those fields in DYNAMIC_FIELDS will be analyzed.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DYNAMIC_FIELDS</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;CPU util.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;Used mem.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;Free mem.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;Available mem.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;Mem. util.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;GPU free mem.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;GPU used mem.&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;GPU util.&#39;</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="Monitor.__init__">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">pass</span></div>
+
+
+<div class="viewcode-block" id="Monitor.monitor_all_resources">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">monitor_all_resources</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Detect the resource utilization of all distributed nodes.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># TODO</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Monitor.monitor_current_resources">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">monitor_current_resources</span><span class="p">():</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Detect the resource utilization of the current environment/machine.</span>
+<span class="sd">        All data of &quot;util.&quot; is ratios in the range of [0.0, 1.0]. All data of</span>
+<span class="sd">        &quot;mem.&quot; is in MB.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">resource_dict</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
+        <span class="c1"># current time</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;timestamp&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+        <span class="c1"># CPU</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;CPU count&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_cpu_count</span><span class="p">()</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;CPU util.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_cpu_utilization</span><span class="p">()</span> <span class="o">/</span> <span class="mf">100.0</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Total mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_mem_info</span><span class="p">(</span><span class="s1">&#39;total&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Used mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_mem_info</span><span class="p">(</span><span class="s1">&#39;used&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Free mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_mem_info</span><span class="p">(</span><span class="s1">&#39;free&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Available mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_mem_info</span><span class="p">(</span><span class="s1">&#39;available&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Mem. util.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">resource_dict</span><span class="p">[</span>
+            <span class="s1">&#39;Used mem.&#39;</span><span class="p">]</span> <span class="o">/</span> <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;Total mem.&#39;</span><span class="p">]</span>
+
+        <span class="c1"># GPU</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU total mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_cuda_info</span><span class="p">(</span><span class="s1">&#39;memory.total&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU free mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_cuda_info</span><span class="p">(</span><span class="s1">&#39;memory.free&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU used mem.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_cuda_info</span><span class="p">(</span><span class="s1">&#39;memory.used&#39;</span><span class="p">)</span>
+        <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU util.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">query_cuda_info</span><span class="p">(</span><span class="s1">&#39;utilization.gpu&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU util.&#39;</span><span class="p">]:</span>
+            <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU util.&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">x</span> <span class="o">/</span> <span class="mf">100.0</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">resource_dict</span><span class="p">[</span><span class="s1">&#39;GPU util.&#39;</span><span class="p">]</span>
+            <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">resource_dict</span></div>
+
+
+<div class="viewcode-block" id="Monitor.draw_resource_util_graph">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">draw_resource_util_graph</span><span class="p">(</span><span class="n">resource_util_list</span><span class="p">,</span> <span class="n">store_dir</span><span class="p">):</span>
+        <span class="kn">import</span><span class="w"> </span><span class="nn">matplotlib.pyplot</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">plt</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">resource_util_dict</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">resource_util_list</span><span class="p">):</span>
+            <span class="n">resource_list</span> <span class="o">=</span> <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span>
+            <span class="n">interval</span> <span class="o">=</span> <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;sampling interval&#39;</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">focus_metric</span> <span class="ow">in</span> <span class="n">Monitor</span><span class="o">.</span><span class="n">DYNAMIC_FIELDS</span><span class="p">:</span>
+                <span class="n">fn</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;func_</span><span class="si">{</span><span class="n">idx</span><span class="si">}</span><span class="s1">_</span><span class="si">{</span><span class="n">focus_metric</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot; &quot;</span><span class="p">,</span><span class="w"> </span><span class="s2">&quot;_&quot;</span><span class="p">)</span><span class="si">}</span><span class="s1">.jpg&#39;</span>
+                <span class="n">ylbl</span> <span class="o">=</span> <span class="s1">&#39;%&#39;</span> <span class="k">if</span> <span class="n">focus_metric</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;util.&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s1">&#39;MB&#39;</span>
+                <span class="n">metric_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="n">focus_metric</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">resource_list</span><span class="p">]</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">plot</span><span class="p">([</span><span class="n">i</span> <span class="o">*</span> <span class="n">interval</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">metric_list</span><span class="p">))],</span>
+                         <span class="n">metric_list</span><span class="p">)</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">title</span><span class="p">(</span><span class="n">focus_metric</span><span class="p">)</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">xlabel</span><span class="p">(</span><span class="s1">&#39;Time (s)&#39;</span><span class="p">)</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">ylabel</span><span class="p">(</span><span class="n">ylbl</span><span class="p">)</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">savefig</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">store_dir</span><span class="p">,</span> <span class="n">fn</span><span class="p">),</span> <span class="n">bbox_inches</span><span class="o">=</span><span class="s1">&#39;tight&#39;</span><span class="p">)</span>
+                <span class="n">plt</span><span class="o">.</span><span class="n">clf</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="Monitor.analyze_resource_util_list">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">analyze_resource_util_list</span><span class="p">(</span><span class="n">resource_util_list</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Analyze the resource utilization for a given resource util list.</span>
+<span class="sd">        Compute {&#39;max&#39;, &#39;min&#39;, &#39;avg&#39;} of resource metrics for each dict item.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">res_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">resource_util_list</span><span class="p">:</span>
+            <span class="n">res_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">Monitor</span><span class="o">.</span><span class="n">analyze_single_resource_util</span><span class="p">(</span><span class="n">item</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">res_list</span></div>
+
+
+<div class="viewcode-block" id="Monitor.analyze_single_resource_util">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">analyze_single_resource_util</span><span class="p">(</span><span class="n">resource_util_dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Analyze the resource utilization for a single resource util dict.</span>
+<span class="sd">        Compute {&#39;max&#39;, &#39;min&#39;, &#39;avg&#39;} of each resource metrics.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">analysis_res</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">record_list</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]:</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">Monitor</span><span class="o">.</span><span class="n">DYNAMIC_FIELDS</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">record</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">record</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                        <span class="k">continue</span>
+                    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+                        <span class="n">record_list</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">[])</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">record_list</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">[])</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">record</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+
+        <span class="c1"># analyze the max, min, and avg</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">record_list</span><span class="p">:</span>
+            <span class="n">analysis_res</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="s1">&#39;max&#39;</span><span class="p">:</span> <span class="nb">max</span><span class="p">(</span><span class="n">record_list</span><span class="p">[</span><span class="n">key</span><span class="p">]),</span>
+                <span class="s1">&#39;min&#39;</span><span class="p">:</span> <span class="nb">min</span><span class="p">(</span><span class="n">record_list</span><span class="p">[</span><span class="n">key</span><span class="p">]),</span>
+                <span class="s1">&#39;avg&#39;</span><span class="p">:</span> <span class="nb">sum</span><span class="p">(</span><span class="n">record_list</span><span class="p">[</span><span class="n">key</span><span class="p">])</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">record_list</span><span class="p">[</span><span class="n">key</span><span class="p">]),</span>
+            <span class="p">}</span>
+        <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;resource_analysis&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">analysis_res</span>
+
+        <span class="k">return</span> <span class="n">resource_util_dict</span></div>
+
+
+<div class="viewcode-block" id="Monitor.monitor_func">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">monitor_func</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="n">args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">sample_interval</span><span class="o">=</span><span class="mf">0.5</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Process the input dataset and probe related information for each OP in</span>
+<span class="sd">        the specified operator list.</span>
+
+<span class="sd">        For now, we support the following targets to probe:</span>
+<span class="sd">        &quot;resource&quot;: resource utilization for each OP.</span>
+<span class="sd">        &quot;speed&quot;: average processing speed for each OP.</span>
+
+<span class="sd">        The probe result is a list and each item in the list is the probe</span>
+<span class="sd">        result for each OP.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="n">func</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="o">**</span><span class="n">args</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">):</span>
+            <span class="n">func</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">func</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="n">args</span><span class="p">)</span>
+
+        <span class="c1"># resource utilization dict</span>
+        <span class="n">resource_util_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="c1"># start monitor</span>
+        <span class="n">start_method</span> <span class="o">=</span> <span class="s1">&#39;fork&#39;</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">name</span> <span class="o">==</span> <span class="s1">&#39;nt&#39;</span><span class="p">:</span>  <span class="c1"># for Windows</span>
+            <span class="n">start_method</span> <span class="o">=</span> <span class="s1">&#39;spawn&#39;</span>
+        <span class="n">ctx</span> <span class="o">=</span> <span class="n">get_context</span><span class="p">(</span><span class="n">start_method</span><span class="p">)</span>
+        <span class="k">with</span> <span class="n">ctx</span><span class="o">.</span><span class="n">Manager</span><span class="p">()</span> <span class="k">as</span> <span class="n">manager</span><span class="p">:</span>
+            <span class="n">mdict</span> <span class="o">=</span> <span class="n">manager</span><span class="o">.</span><span class="n">dict</span><span class="p">()</span>
+            <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;stop&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="n">monitor_proc</span> <span class="o">=</span> <span class="n">ctx</span><span class="o">.</span><span class="n">Process</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">resource_monitor</span><span class="p">,</span>
+                                       <span class="n">args</span><span class="o">=</span><span class="p">(</span>
+                                           <span class="n">mdict</span><span class="p">,</span>
+                                           <span class="n">sample_interval</span><span class="p">,</span>
+                                       <span class="p">))</span>
+            <span class="n">monitor_proc</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+            <span class="c1"># start timer</span>
+            <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+            <span class="c1"># run single op</span>
+            <span class="n">ret</span> <span class="o">=</span> <span class="n">func</span><span class="p">()</span>
+
+            <span class="c1"># end timer</span>
+            <span class="n">end</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+            <span class="c1"># stop monitor</span>
+            <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;stop&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">monitor_proc</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+
+            <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span>
+
+            <span class="c1"># record interval</span>
+            <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;sampling interval&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample_interval</span>
+
+            <span class="c1"># calculate speed</span>
+            <span class="n">resource_util_dict</span><span class="p">[</span><span class="s1">&#39;time&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">end</span> <span class="o">-</span> <span class="n">start</span>
+
+        <span class="k">return</span> <span class="n">ret</span><span class="p">,</span> <span class="n">resource_util_dict</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/csv_formatter.html b/_modules/data_juicer/format/csv_formatter.html
index be34024fd..a8b8b64ab 100644
--- a/_modules/data_juicer/format/csv_formatter.html
+++ b/_modules/data_juicer/format/csv_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
 
 
 <div class="viewcode-block" id="CsvFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.CsvFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">CsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.csv&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="CsvFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.CsvFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/empty_formatter.html b/_modules/data_juicer/format/empty_formatter.html
index 369e7b159..2c4591889 100644
--- a/_modules/data_juicer/format/empty_formatter.html
+++ b/_modules/data_juicer/format/empty_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
 
 
 <div class="viewcode-block" id="EmptyFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">EmptyFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[]</span>
 
 <div class="viewcode-block" id="EmptyFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">length</span><span class="p">,</span> <span class="n">feature_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
         <span class="k">return</span> <span class="kc">None</span>
 
 <div class="viewcode-block" id="EmptyFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="n">data_dict</span> <span class="o">=</span> <span class="p">{}</span>
         <span class="n">features</span> <span class="o">=</span> <span class="n">Features</span><span class="p">()</span>
@@ -139,7 +139,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
 
 
 <div class="viewcode-block" id="RayEmptyFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">RayEmptyFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -148,7 +148,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[]</span>
 
 <div class="viewcode-block" id="RayEmptyFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">length</span><span class="p">,</span> <span class="n">feature_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -167,7 +167,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
         <span class="k">return</span> <span class="p">{}</span>
 
 <div class="viewcode-block" id="RayEmptyFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">feature_keys</span><span class="p">):</span>
             <span class="n">df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span>
diff --git a/_modules/data_juicer/format/formatter.html b/_modules/data_juicer/format/formatter.html
index ef9b48c4f..d92626f92 100644
--- a/_modules/data_juicer/format/formatter.html
+++ b/_modules/data_juicer/format/formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,21 +91,27 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 <span class="n">FORMATTERS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Formatters&#39;</span><span class="p">)</span>
 
 
+<div class="viewcode-block" id="BaseFormatter">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">BaseFormatter</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Base class to load dataset.&quot;&quot;&quot;</span>
 
+<div class="viewcode-block" id="BaseFormatter.load_dataset">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="LocalFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">LocalFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from local files or local</span>
 <span class="sd">    directory.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="LocalFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
@@ -136,7 +142,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="LocalFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from dataset file or dataset directory, and unify its</span>
@@ -170,13 +176,13 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="RemoteFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">RemoteFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from repository of huggingface</span>
 <span class="sd">    hub.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RemoteFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">text_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -195,7 +201,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="RemoteFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from HuggingFace, and unify its format.</span>
@@ -217,6 +223,8 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 
+<div class="viewcode-block" id="add_suffixes">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.add_suffixes">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">add_suffixes</span><span class="p">(</span><span class="n">datasets</span><span class="p">:</span> <span class="n">DatasetDict</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Add suffix filed to datasets.</span>
@@ -238,9 +246,12 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                                    <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Adding new column for suffix&#39;</span><span class="p">)</span>
     <span class="n">datasets</span> <span class="o">=</span> <span class="n">concatenate_datasets</span><span class="p">([</span><span class="n">ds</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">()])</span>
     <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">NestedDataset</span>
-    <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span></div>
+
 
 
+<div class="viewcode-block" id="unify_format">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.unify_format">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">unify_format</span><span class="p">(</span>
     <span class="n">dataset</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
     <span class="n">text_keys</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span><span class="p">,</span>
@@ -362,9 +373,12 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                        <span class="s1">&#39;to their absolute versions. Data of other modalities &#39;</span>
                        <span class="s1">&#39;might not be able to find by Data-Juicer.&#39;</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">dataset</span>
+    <span class="k">return</span> <span class="n">dataset</span></div>
 
 
+
+<div class="viewcode-block" id="load_formatter">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.load_formatter">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
                    <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                    <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -420,7 +434,8 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                          <span class="sa">f</span><span class="s1">&#39;It might be because Data-Juicer doesn</span><span class="se">\&#39;</span><span class="s1">t support &#39;</span>
                          <span class="sa">f</span><span class="s1">&#39;the format of this dataset, or the path of this &#39;</span>
                          <span class="sa">f</span><span class="s1">&#39;dataset is incorrect.Please check if it</span><span class="se">\&#39;</span><span class="s1">s a valid &#39;</span>
-                         <span class="sa">f</span><span class="s1">&#39;dataset path and retry.&#39;</span><span class="p">)</span>
+                         <span class="sa">f</span><span class="s1">&#39;dataset path and retry.&#39;</span><span class="p">)</span></div>
+
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/format/json_formatter.html b/_modules/data_juicer/format/json_formatter.html
index 3ef5f3d2b..2ae3772de 100644
--- a/_modules/data_juicer/format/json_formatter.html
+++ b/_modules/data_juicer/format/json_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
 
 
 <div class="viewcode-block" id="JsonFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.JsonFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">JsonFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.json&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="JsonFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.JsonFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/load.html b/_modules/data_juicer/format/load.html
index fb055b3cb..0e536e862 100644
--- a/_modules/data_juicer/format/load.html
+++ b/_modules/data_juicer/format/load.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -82,7 +82,7 @@ <h1>Source code for data_juicer.format.load</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="load_formatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.load_formatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.load.load_formatter">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
                    <span class="n">generated_dataset_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                    <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
diff --git a/_modules/data_juicer/format/mixture_formatter.html b/_modules/data_juicer/format/mixture_formatter.html
index b0508eb82..3ec05e769 100644
--- a/_modules/data_juicer/format/mixture_formatter.html
+++ b/_modules/data_juicer/format/mixture_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,14 +88,14 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="MixtureFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">MixtureFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class mixes multiple datasets by randomly selecting samples from</span>
 <span class="sd">    every dataset and merging them, and then exports the merged datasset as a</span>
 <span class="sd">    new mixed dataset.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="MixtureFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -173,7 +173,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
         <span class="k">return</span> <span class="n">prefixes</span><span class="p">,</span> <span class="n">weights</span>
 
 <div class="viewcode-block" id="MixtureFormatter.random_sample">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">[docs]</a>
     <span class="nd">@classmethod</span>
     <span class="k">def</span><span class="w"> </span><span class="nf">random_sample</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">weight</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">sample_number</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -208,7 +208,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="MixtureFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a mixed dataset.</span>
diff --git a/_modules/data_juicer/format/parquet_formatter.html b/_modules/data_juicer/format/parquet_formatter.html
index bf0908260..03f3c073e 100644
--- a/_modules/data_juicer/format/parquet_formatter.html
+++ b/_modules/data_juicer/format/parquet_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="ParquetFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.ParquetFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">ParquetFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.parquet&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="ParquetFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/text_formatter.html b/_modules/data_juicer/format/text_formatter.html
index 94a1b8710..143bcc503 100644
--- a/_modules/data_juicer/format/text_formatter.html
+++ b/_modules/data_juicer/format/text_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,6 +91,8 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
 <span class="kn">from</span><span class="w"> </span><span class="nn">.formatter</span><span class="w"> </span><span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span><span class="p">,</span> <span class="n">add_suffixes</span><span class="p">,</span> <span class="n">unify_format</span>
 
 
+<div class="viewcode-block" id="extract_txt_from_docx">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">extract_txt_from_docx</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Extract text from a docx file and save to target path.</span>
@@ -102,9 +104,12 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
     <span class="n">text</span> <span class="o">=</span> <span class="p">[</span><span class="n">para</span><span class="o">.</span><span class="n">text</span> <span class="k">for</span> <span class="n">para</span> <span class="ow">in</span> <span class="n">doc</span><span class="o">.</span><span class="n">paragraphs</span> <span class="k">if</span> <span class="n">para</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
     <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.docx&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
     <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-        <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span>
+        <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
 
 
+
+<div class="viewcode-block" id="extract_txt_from_pdf">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">extract_txt_from_pdf</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Extract text from a pdf file and save to target path.</span>
@@ -128,11 +133,12 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
                 <span class="n">text</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">page_text</span><span class="p">)</span>
         <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.pdf&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
         <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-            <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span>
+            <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
+
 
 
 <div class="viewcode-block" id="TextFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">TextFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -154,7 +160,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
     <span class="p">]</span>
 
 <div class="viewcode-block" id="TextFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -181,7 +187,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
 
 
 <div class="viewcode-block" id="TextFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from local text-type files.</span>
diff --git a/_modules/data_juicer/format/tsv_formatter.html b/_modules/data_juicer/format/tsv_formatter.html
index 458eefc29..90f4776d6 100644
--- a/_modules/data_juicer/format/tsv_formatter.html
+++ b/_modules/data_juicer/format/tsv_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
 
 
 <div class="viewcode-block" id="TsvFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TsvFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">TsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.tsv&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="TsvFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TsvFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html b/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
index 87bcbc3ad..fc803024e 100644
--- a/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="EntityAttributeAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">EntityAttributeAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
     <span class="n">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\s*</span><span class="si">{entity}</span><span class="s1">\s*\#\#\s*</span><span class="si">{attribute}</span><span class="s1">\s*(.*?)\Z&#39;</span>  <span class="c1"># noqa: E501</span>
 
 <div class="viewcode-block" id="EntityAttributeAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -222,7 +222,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
@@ -235,7 +235,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.attribute_summary">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">attribute_summary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -272,7 +272,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html b/_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html
index 35f9503b8..a7e287317 100644
--- a/_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.aggregator.meta_tags_aggregator</h1><div cla
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="MetaTagsAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">MetaTagsAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -161,7 +161,7 @@ <h1>Source code for data_juicer.ops.aggregator.meta_tags_aggregator</h1><div cla
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\*\*\s*(\w+)归类为(\w+)\s*\*\*&#39;</span>
 
 <div class="viewcode-block" id="MetaTagsAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">meta_tag_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_sentiment_labels</span><span class="p">,</span>
@@ -227,7 +227,7 @@ <h1>Source code for data_juicer.ops.aggregator.meta_tags_aggregator</h1><div cla
 
 
 <div class="viewcode-block" id="MetaTagsAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
@@ -236,7 +236,7 @@ <h1>Source code for data_juicer.ops.aggregator.meta_tags_aggregator</h1><div cla
 
 
 <div class="viewcode-block" id="MetaTagsAggregator.meta_map">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.meta_map">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">meta_map</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">meta_cnts</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
@@ -269,7 +269,7 @@ <h1>Source code for data_juicer.ops.aggregator.meta_tags_aggregator</h1><div cla
 
 
 <div class="viewcode-block" id="MetaTagsAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">meta</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html b/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
index 2740d5b11..a9d9ed532 100644
--- a/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">MostRelavantEntitiesAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\#\s*列表\s*(.*?)\Z&#39;</span>
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -195,7 +195,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
@@ -209,7 +209,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.query_most_relavant_entities">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">query_most_relavant_entities</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -254,7 +254,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/aggregator/nested_aggregator.html b/_modules/data_juicer/ops/aggregator/nested_aggregator.html
index 2f2e58373..ddede0d1c 100644
--- a/_modules/data_juicer/ops/aggregator/nested_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/nested_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="NestedAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span><span class="w"> </span><span class="nc">NestedAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -128,7 +128,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
     <span class="n">DEFAULT_SUB_DOC_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;文档碎片：</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">&#39;</span>
 
 <div class="viewcode-block" id="NestedAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">input_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">event_description</span><span class="p">,</span>
@@ -189,7 +189,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
 
         <span class="k">def</span><span class="w"> </span><span class="nf">if_match</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
@@ -209,7 +209,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.recursive_summary">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">recursive_summary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -253,7 +253,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/base_op.html b/_modules/data_juicer/ops/base_op.html
new file mode 100644
index 000000000..7aacea258
--- /dev/null
+++ b/_modules/data_juicer/ops/base_op.html
@@ -0,0 +1,898 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.base_op &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.base_op</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">traceback</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">functools</span><span class="w"> </span><span class="kn">import</span> <span class="n">wraps</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">pyarrow</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">pa</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">is_cuda_available</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">size_to_bytes</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.process_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">calculate_np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.registry</span><span class="w"> </span><span class="kn">import</span> <span class="n">Registry</span>
+
+<span class="n">OPERATORS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Operators&#39;</span><span class="p">)</span>
+<span class="n">UNFORKABLE</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Unforkable&#39;</span><span class="p">)</span>
+<span class="n">NON_STATS_FILTERS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Non-stats Filters&#39;</span><span class="p">)</span>
+<span class="n">TAGGING_OPS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Tagging Operators&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="convert_list_dict_to_dict_list">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">convert_list_dict_to_dict_list</span><span class="p">(</span><span class="n">samples</span><span class="p">):</span>
+    <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+    <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+    <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+        <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">res_samples</span></div>
+
+
+
+<div class="viewcode-block" id="convert_dict_list_to_list_dict">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">convert_dict_list_to_list_dict</span><span class="p">(</span><span class="n">samples</span><span class="p">):</span>
+    <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+    <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">keys</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+    <span class="c1"># take any key, since they should be of same length</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]])):</span>
+        <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">({</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+    <span class="k">return</span> <span class="n">reconstructed_samples</span></div>
+
+
+
+<div class="viewcode-block" id="convert_arrow_to_python">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">convert_arrow_to_python</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
+
+    <span class="nd">@wraps</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">wrapper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">):</span>
+            <span class="n">sample</span> <span class="o">=</span> <span class="n">sample</span><span class="o">.</span><span class="n">to_pydict</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">method</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">wrapper</span></div>
+
+
+
+<div class="viewcode-block" id="catch_map_batches_exception">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">catch_map_batches_exception</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    For batched-map sample-level fault tolerance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="nd">@wraps</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
+    <span class="nd">@convert_arrow_to_python</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">wrapper</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">method</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;An error occurred in mapper operation when processing &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;samples </span><span class="si">{</span><span class="n">samples</span><span class="si">}</span><span class="s1">, </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">e</span><span class="p">)</span><span class="si">}</span><span class="s1">: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">traceback</span><span class="o">.</span><span class="n">print_exc</span><span class="p">()</span>
+            <span class="n">ret</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()}</span>
+            <span class="n">ret</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">ret</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">ret</span>
+
+    <span class="k">return</span> <span class="n">wrapper</span></div>
+
+
+
+<div class="viewcode-block" id="catch_map_single_exception">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">catch_map_single_exception</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="n">return_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    For single-map sample-level fault tolerance.</span>
+<span class="sd">    The input sample is expected batch_size = 1.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_batched</span><span class="p">(</span><span class="n">sample</span><span class="p">):</span>
+        <span class="n">val_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="n">sample</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+        <span class="n">first_val</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">val_iter</span><span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">first_val</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="kc">False</span>
+        <span class="n">first_len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">first_val</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">all</span><span class="p">(</span>
+            <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">val</span><span class="p">)</span> <span class="o">==</span> <span class="n">first_len</span>
+            <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">val_iter</span><span class="p">)</span>
+
+    <span class="nd">@wraps</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
+    <span class="nd">@convert_arrow_to_python</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">wrapper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">is_batched</span><span class="p">(</span><span class="n">sample</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">sample</span> <span class="o">=</span> <span class="n">convert_dict_list_to_list_dict</span><span class="p">(</span><span class="n">sample</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="n">res</span> <span class="o">=</span> <span class="n">method</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">return_sample</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="n">convert_list_dict_to_dict_list</span><span class="p">([</span><span class="n">res</span><span class="p">])</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="p">[</span><span class="n">res</span><span class="p">]</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;An error occurred in mapper operation when processing &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;sample </span><span class="si">{</span><span class="n">sample</span><span class="si">}</span><span class="s1">, </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">e</span><span class="p">)</span><span class="si">}</span><span class="s1">: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">traceback</span><span class="o">.</span><span class="n">print_exc</span><span class="p">()</span>
+                <span class="n">ret</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">sample</span><span class="o">.</span><span class="n">keys</span><span class="p">()}</span>
+                <span class="n">ret</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="n">ret</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">return</span> <span class="n">ret</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># without fault tolerance</span>
+            <span class="k">return</span> <span class="n">method</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">wrapper</span></div>
+
+
+
+<div class="viewcode-block" id="OP">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">OP</span><span class="p">:</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cpu&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">False</span>
+
+<div class="viewcode-block" id="OP.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class of operators.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed.</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        :param index_key: index the samples before process if not None</span>
+<span class="sd">        :param batch_size: the batch size for processing</span>
+<span class="sd">        :param work_dir: the working directory for this operator</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># init data keys</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;text_key&#39;</span><span class="p">,</span> <span class="s1">&#39;text&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;image_key&#39;</span><span class="p">,</span> <span class="s1">&#39;images&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;audio_key&#39;</span><span class="p">,</span> <span class="s1">&#39;audios&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;video_key&#39;</span><span class="p">,</span> <span class="s1">&#39;videos&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;query_key&#39;</span><span class="p">,</span> <span class="s1">&#39;query&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;response_key&#39;</span><span class="p">,</span> <span class="s1">&#39;response&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">history_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;history_key&#39;</span><span class="p">,</span> <span class="s1">&#39;history&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">index_key</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;index_key&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;batch_size&#39;</span><span class="p">,</span> <span class="mi">1000</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;work_dir&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># whether the model can be accelerated using cuda</span>
+        <span class="n">_accelerator</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;accelerator&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">_accelerator</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">=</span> <span class="n">_accelerator</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_accelerator</span>
+
+        <span class="c1"># parameters to determind the number of procs for this op</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;num_proc&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cpu_required</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;cpu_required&#39;</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span> <span class="o">=</span> <span class="n">size_to_bytes</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span><span class="p">)</span> <span class="o">/</span> <span class="mi">1024</span><span class="o">**</span><span class="mi">3</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">turbo</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;turbo&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+
+        <span class="c1"># nested wrappers</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
+        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;process&#39;</span><span class="p">,</span> <span class="s1">&#39;compute_stats&#39;</span><span class="p">,</span> <span class="s1">&#39;compute_hash&#39;</span><span class="p">]:</span>
+            <span class="n">method</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">method</span> <span class="ow">and</span> <span class="nb">callable</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span> <span class="n">method</span><span class="p">)</span>
+                <span class="n">method</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">method</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="OP.is_batched_op">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_batched_op</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span></div>
+
+
+<div class="viewcode-block" id="OP.process">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="OP.use_cuda">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">use_cuda</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">==</span> <span class="s1">&#39;cuda&#39;</span> <span class="ow">and</span> <span class="n">is_cuda_available</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="OP.runtime_np">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">runtime_np</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="n">calculate_np</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span><span class="p">,</span>
+                               <span class="bp">self</span><span class="o">.</span><span class="n">cpu_required</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">,</span>
+                               <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;Op [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">] running with number of procs:</span><span class="si">{</span><span class="n">op_proc</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">op_proc</span></div>
+
+
+<div class="viewcode-block" id="OP.remove_extra_parameters">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">remove_extra_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">param_dict</span><span class="p">,</span> <span class="n">keys</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            at the begining of the init of the mapper op, call</span>
+<span class="sd">            self.remove_extra_parameters(locals())</span>
+<span class="sd">            to get the init parameter dict of the op for convenience</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">keys</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">param_dict</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="n">k</span><span class="p">:</span> <span class="n">v</span>
+                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">param_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;_&#39;</span><span class="p">)</span>
+            <span class="p">}</span>
+            <span class="n">param_dict</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;self&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">param_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">param_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">}</span>
+        <span class="k">return</span> <span class="n">param_dict</span></div>
+
+
+<div class="viewcode-block" id="OP.add_parameters">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">add_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">init_parameter_dict</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_param_dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            add parameters for each sample, need to keep extra_param_dict</span>
+<span class="sd">            and init_parameter_dict unchanged.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">related_parameters</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">init_parameter_dict</span><span class="p">)</span>
+        <span class="n">related_parameters</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">extra_param_dict</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">related_parameters</span></div>
+
+
+<div class="viewcode-block" id="OP.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">NestedDataset</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="c1"># add meta field for OPs that produce tags</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="ow">in</span> <span class="n">TAGGING_OPS</span><span class="o">.</span><span class="n">modules</span> \
+                <span class="ow">and</span> <span class="n">Fields</span><span class="o">.</span><span class="n">meta</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">add_same_content_to_new_column</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">add_same_content_to_new_column</span><span class="p">,</span>
+                                  <span class="n">fn_kwargs</span><span class="o">=</span><span class="p">{</span>
+                                      <span class="s1">&#39;new_column_name&#39;</span><span class="p">:</span> <span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">,</span>
+                                      <span class="s1">&#39;initial_value&#39;</span><span class="p">:</span> <span class="p">{}</span>
+                                  <span class="p">},</span>
+                                  <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                                  <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                                  <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Adding new column for meta&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">index_key</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">add_index</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">idx</span><span class="p">):</span>
+                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">index_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">idx</span>
+                <span class="k">return</span> <span class="n">sample</span>
+
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">add_index</span><span class="p">,</span> <span class="n">with_indices</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">dataset</span></div>
+
+
+<div class="viewcode-block" id="OP.empty_history">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">empty_history</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">empty</span><span class="p">((</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">str</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Mapper">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Mapper</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Mapper.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that conducts data editing.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed.</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Mapper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="c1"># runtime wrappers</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">catch_map_batches_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_batched</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">catch_map_single_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">)</span></div>
+
+
+    <span class="c1"># set the process method is not allowed to be overridden</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">__init_subclass__</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="n">not_allowed_list</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;process&#39;</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">method_name</span> <span class="ow">in</span> <span class="n">not_allowed_list</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">method_name</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;Method </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1"> cannot be overridden by subclass &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">cls</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1">. Please implement </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1">_single &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;or </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1">_batched.&#39;</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+<div class="viewcode-block" id="Mapper.process_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">first_key</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">keys</span><span class="p">))</span>
+        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">first_key</span><span class="p">])</span>
+
+        <span class="n">new_keys</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">):</span>
+            <span class="n">this_sample</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">}</span>
+            <span class="n">res_sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">(</span><span class="n">this_sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+            <span class="n">res_keys</span> <span class="o">=</span> <span class="n">res_sample</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">res_keys</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">new_keys</span><span class="p">:</span>
+                        <span class="n">new_keys</span><span class="o">.</span><span class="n">update</span><span class="p">({</span><span class="n">key</span><span class="p">:</span> <span class="p">[]})</span>
+                    <span class="n">new_keys</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">res_sample</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">res_sample</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">new_keys</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">samples</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="Mapper.process_single">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For sample level, sample --&gt; sample</span>
+
+<span class="sd">        :param sample: sample to process</span>
+<span class="sd">        :return: processed sample</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Mapper.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Mapper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
+            <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+            <span class="n">with_rank</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">(),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">desc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">+</span> <span class="s1">&#39;_process&#39;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+            <span class="n">tracer</span><span class="o">.</span><span class="n">trace_mapper</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">new_dataset</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">new_dataset</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Filter">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Filter</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Filter.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that removes specific info.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Filter</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">stats_export_path</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;stats_export_path&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># runtime wrappers</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span> <span class="o">=</span> <span class="n">catch_map_batches_exception</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats_batched</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">catch_map_batches_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_batched</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span> <span class="o">=</span> <span class="n">catch_map_single_exception</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats_single</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">catch_map_single_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">,</span>
+                                                      <span class="n">return_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
+
+
+    <span class="c1"># set the process method is not allowed to be overridden</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">__init_subclass__</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="n">not_allowed_list</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;compute_stats&#39;</span><span class="p">,</span> <span class="s1">&#39;process&#39;</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">method_name</span> <span class="ow">in</span> <span class="n">not_allowed_list</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">method_name</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;Method </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1"> cannot be overridden by subclass &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">cls</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1">. Please implement </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1">_single &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;or </span><span class="si">{</span><span class="n">method_name</span><span class="si">}</span><span class="s1">_batched.&#39;</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+<div class="viewcode-block" id="Filter.compute_stats_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">):</span>
+            <span class="n">this_sample</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">}</span>
+            <span class="n">res_sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats_single</span><span class="p">(</span><span class="n">this_sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                                                   <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+            <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">res_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+            <span class="k">if</span> <span class="s1">&#39;context&#39;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s1">&#39;context&#39;</span><span class="p">]:</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">res_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="Filter.process_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">return</span> <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">({</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">:</span> <span class="n">stat</span><span class="p">}),</span>
+                   <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span></div>
+
+
+<div class="viewcode-block" id="Filter.compute_stats_single">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compute stats for the sample which is used as a metric to decide</span>
+<span class="sd">        whether to filter this sample.</span>
+
+<span class="sd">        :param sample: input sample.</span>
+<span class="sd">        :param context: whether to store context information of intermediate</span>
+<span class="sd">            vars in the sample temporarily.</span>
+<span class="sd">        :return: sample with computed stats</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Filter.process_single">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For sample level, sample --&gt; Boolean.</span>
+
+<span class="sd">        :param sample: sample to decide whether to filter</span>
+<span class="sd">        :return: true for keeping and false for filtering</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Filter.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reduce</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Filter</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="c1"># add stats field for Filters that produce stats</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">NON_STATS_FILTERS</span><span class="o">.</span><span class="n">modules</span> \
+                <span class="ow">and</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">add_same_content_to_new_column</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">add_same_content_to_new_column</span><span class="p">,</span>
+                                  <span class="n">fn_kwargs</span><span class="o">=</span><span class="p">{</span>
+                                      <span class="s1">&#39;new_column_name&#39;</span><span class="p">:</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">,</span>
+                                      <span class="s1">&#39;initial_value&#39;</span><span class="p">:</span> <span class="p">{}</span>
+                                  <span class="p">},</span>
+                                  <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                                  <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                                  <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Adding new column for stats&#39;</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">,</span>
+                              <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                              <span class="n">with_rank</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">(),</span>
+                              <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                              <span class="n">desc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">+</span> <span class="s1">&#39;_compute_stats&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">exporter</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats_export_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">exporter</span><span class="o">.</span><span class="n">export_compute_stats</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats_export_path</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce</span><span class="p">:</span>
+            <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
+                                         <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                                         <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                                         <span class="n">desc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">+</span> <span class="s1">&#39;_process&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+                <span class="n">tracer</span><span class="o">.</span><span class="n">trace_filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">new_dataset</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">new_dataset</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Deduplicator">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Deduplicator</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Deduplicator.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that conducts deduplication.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="c1"># runtime wrappers</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span> <span class="o">=</span> <span class="n">catch_map_batches_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span> <span class="o">=</span> <span class="n">catch_map_single_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Deduplicator.compute_hash">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compute hash values for the sample.</span>
+
+<span class="sd">        :param sample: input sample</span>
+<span class="sd">        :return: sample with computed hash value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Deduplicator.process">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Deduplicator.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reduce</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">,</span>
+                              <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                              <span class="n">with_rank</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">(),</span>
+                              <span class="n">desc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">+</span> <span class="s1">&#39;_compute_hash&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce</span><span class="p">:</span>
+            <span class="n">show_num</span> <span class="o">=</span> <span class="n">tracer</span><span class="o">.</span><span class="n">show_num</span> <span class="k">if</span> <span class="n">tracer</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">new_dataset</span><span class="p">,</span> <span class="n">dup_pairs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+                <span class="n">tracer</span><span class="o">.</span><span class="n">trace_deduplicator</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dup_pairs</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">new_dataset</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Selector">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Selector</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Selector.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that conducts selection in dataset-level.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Selector</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Selector.process">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :return: selected dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Selector.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Selector</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="n">new_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+            <span class="n">tracer</span><span class="o">.</span><span class="n">trace_filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">new_dataset</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">new_dataset</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Grouper">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Grouper</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Grouper.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that group samples.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Grouper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Grouper.process">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :return: dataset of batched samples.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Grouper.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Grouper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="n">batched_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">NestedDataset</span>
+        <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="o">.</span><span class="n">from_list</span><span class="p">(</span><span class="n">batched_samples</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+            <span class="n">tracer</span><span class="o">.</span><span class="n">trace_filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">new_dataset</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">new_dataset</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Aggregator">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Aggregator</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
+
+<div class="viewcode-block" id="Aggregator.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Base class that group samples.</span>
+
+<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param image_key: the key name of field that stores sample image list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param audio_key: the key name of field that stores sample audio list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param video_key: the key name of field that stores sample video list</span>
+<span class="sd">            to be processed</span>
+<span class="sd">        :param query_key: the key name of field that stores sample queris</span>
+<span class="sd">        :param response_key: the key name of field that stores responses</span>
+<span class="sd">        :param history_key: the key name of field that stores history of</span>
+<span class="sd">            queries and responses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">catch_map_single_exception</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Aggregator.process_single">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For sample level, batched sample --&gt; sample,</span>
+<span class="sd">        the input must be the output of some Grouper OP.</span>
+
+<span class="sd">        :param sample: batched sample to aggregate</span>
+<span class="sd">        :return: aggregated sample</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="Aggregator.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="c1"># add batched meta field for OPs that produce aggregations</span>
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">add_same_content_to_new_column</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">add_same_content_to_new_column</span><span class="p">,</span>
+                                  <span class="n">fn_kwargs</span><span class="o">=</span><span class="p">{</span>
+                                      <span class="s1">&#39;new_column_name&#39;</span><span class="p">:</span> <span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span><span class="p">,</span>
+                                      <span class="s1">&#39;initial_value&#39;</span><span class="p">:</span> <span class="p">{}</span>
+                                  <span class="p">},</span>
+                                  <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+                                  <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                                  <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Adding new column for aggregation&#39;</span><span class="p">)</span>
+        <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
+            <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">(),</span>
+            <span class="n">with_rank</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">(),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">desc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">+</span> <span class="s1">&#39;_process&#39;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">tracer</span><span class="p">:</span>
+            <span class="n">tracer</span><span class="o">.</span><span class="n">trace_mapper</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">new_dataset</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">new_dataset</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/common/helper_func.html b/_modules/data_juicer/ops/common/helper_func.html
index 9dc6df707..bf095f76f 100644
--- a/_modules/data_juicer/ops/common/helper_func.html
+++ b/_modules/data_juicer/ops/common/helper_func.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,27 +85,39 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 <span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
 
 
+<div class="viewcode-block" id="UnionFind">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">[docs]</a>
 <span class="k">class</span><span class="w"> </span><span class="nc">UnionFind</span><span class="p">:</span>
 
+<div class="viewcode-block" id="UnionFind.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span></div>
 
+
+<div class="viewcode-block" id="UnionFind.find">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">!=</span> <span class="n">x</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span></div>
+
 
+<div class="viewcode-block" id="UnionFind.union">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">[docs]</a>
     <span class="k">def</span><span class="w"> </span><span class="nf">union</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
         <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
         <span class="n">py</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">y</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">py</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">py</span><span class="p">)</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="strip">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.strip">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">strip</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">strip_characters</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Way faster than document.strip(strip_characters) since strip_characters is</span>
@@ -136,7 +148,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_on_whitespace">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">split_on_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">new_line</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">tab</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method also removes concatenated spaces.</span>
@@ -155,7 +167,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_on_newline_tab_whitespace">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method is used to split the document into different levels of sub-</span>
@@ -175,7 +187,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="merge_on_whitespace_tab_newline">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method is used to merge different levels of sub-sentences into one</span>
@@ -197,7 +209,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="words_augmentation">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">words_augmentation</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">group_size</span><span class="p">,</span> <span class="n">join_char</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Augment words, especially for Chinese (without a space between words) and</span>
@@ -217,7 +229,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="get_words_from_document">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">get_words_from_document</span><span class="p">(</span>
     <span class="n">document</span><span class="p">,</span>
     <span class="n">token_func</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -244,7 +256,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="words_refinement">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.words_refinement">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span>
                      <span class="n">lower_case</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
                      <span class="n">strip_chars</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -284,7 +296,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="get_sentences_from_document">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">get_sentences_from_document</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">model_func</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Get sentences from a document.</span>
@@ -304,7 +316,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_text_by_punctuation">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation">[docs]</a>
 <span class="k">def</span><span class="w"> </span><span class="nf">split_text_by_punctuation</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Split text by any zh and en punctuation</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
new file mode 100644
index 000000000..0e1c79eeb
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
@@ -0,0 +1,233 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.document_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/bigscience-workshop/data-preparation/blob/main/preprocessing/training/01a_catalogue_cleaning_and_filtering/clean_helpers/deduplication.py</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">string</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">defaultdict</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Set</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+
+
+<div class="viewcode-block" id="DocumentDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;document_deduplicator&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DocumentDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching.</span>
+
+<span class="sd">    Using md5 hash to deduplicate samples.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DocumentDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">ignore_non_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lowercase: Whether to convert sample text to lower case</span>
+<span class="sd">        :param ignore_non_character: Whether to ignore non-alphabet</span>
+<span class="sd">            characters, including whitespaces, digits, and punctuations</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;\s+|\d+|[</span><span class="si">{</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">string</span><span class="o">.</span><span class="n">punctuation</span><span class="p">)</span><span class="si">}</span><span class="s1">]&#39;</span>  <span class="c1"># noqa: W605</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_non_character</span> <span class="k">else</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="DocumentDeduplicator.compute_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compute md5 hash values for the sample.</span>
+
+<span class="sd">        :param sample: input sample</span>
+<span class="sd">        :return: sample with md5 hash value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_get_hash</span><span class="p">(</span><span class="n">txt</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">(</span><span class="n">txt</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">))</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]</span> <span class="o">=</span> <span class="n">_get_hash</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="DocumentDeduplicator.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># no need to deduplicate because too few samples</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
+
+        <span class="n">dup_hashes</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># sample duplicate pairs</span>
+            <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]):</span>
+                <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
+            <span class="n">dup_samples</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">hash2ids</span><span class="o">.</span><span class="n">items</span><span class="p">()),</span>
+                                 <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="mi">1</span><span class="p">]),</span>
+                                 <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">dup_hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span>
+                <span class="n">item</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dup_samples</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">item</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">1</span>
+            <span class="p">][:</span><span class="n">show_num</span><span class="p">])</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_filter_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">hashes</span><span class="p">):</span>
+            <span class="nb">hash</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">dup_hashes</span> \
+                    <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
+                <span class="c1"># tracer is open and not enough duplicate sample pairs</span>
+                <span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">hashes</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">hash</span><span class="p">)</span>
+                <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{</span><span class="n">hash_v</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">hash_v</span> <span class="ow">in</span> <span class="n">dup_hashes</span><span class="p">}</span> <span class="k">if</span> <span class="n">dup_hashes</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+            <span class="n">_filter_dup_helper</span><span class="p">,</span>
+            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">hashes</span><span class="o">=</span><span class="n">hashes</span><span class="p">),</span>
+            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>  <span class="c1"># num_proc=1</span>
+        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
new file mode 100644
index 000000000..ab5af2fd1
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
@@ -0,0 +1,467 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.document_minhash_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_minhash_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/bigcode-project/bigcode-dataset/blob/main/near_deduplication/minhash_deduplication.py</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">struct</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">defaultdict</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">tqdm</span><span class="w"> </span><span class="kn">import</span> <span class="n">tqdm</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">prepare_sentencepiece_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common.helper_func</span><span class="w"> </span><span class="kn">import</span> <span class="n">UnionFind</span><span class="p">,</span> <span class="n">split_on_whitespace</span>
+
+<span class="n">integrate</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;integrate&#39;</span><span class="p">,</span> <span class="s1">&#39;scipy.integrate&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;document_minhash_deduplicator&#39;</span>
+
+<span class="n">MERSENNE_PRIME</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">((</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">61</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
+<span class="n">MAX_HASH</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">((</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">32</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="sha1_hash32">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">sha1_hash32</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Directly taken from datasketch package to avoid dependency.</span>
+
+<span class="sd">    Parameters</span>
+<span class="sd">    ----------</span>
+<span class="sd">    data : bytes</span>
+
+<span class="sd">    Returns</span>
+<span class="sd">    -------</span>
+<span class="sd">    int</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">struct</span><span class="o">.</span><span class="n">unpack</span><span class="p">(</span><span class="s1">&#39;&lt;I&#39;</span><span class="p">,</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha1</span><span class="p">(</span><span class="n">data</span><span class="p">)</span><span class="o">.</span><span class="n">digest</span><span class="p">()[:</span><span class="mi">4</span><span class="p">])[</span><span class="mi">0</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="optimal_param">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">optimal_param</span><span class="p">(</span>
+    <span class="n">threshold</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">num_perm</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="n">false_positive_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+    <span class="n">false_negative_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Compute the optimal `MinHashLSH` parameter that minimizes the weighted sum</span>
+<span class="sd">    of probabilities of false positive and false negative, taken from</span>
+<span class="sd">    datasketch.</span>
+
+<span class="sd">    :param threshold: float. The threshold for similarity</span>
+<span class="sd">    :param num_perm: int. The number of permutations</span>
+<span class="sd">    :param false_positive_weight: float. The weight of false positive</span>
+<span class="sd">    :param false_negative_weight: float. The weight of false negative</span>
+<span class="sd">    :return: Tuple[int, int]. The optimal `b` and `r` parameters. The number of</span>
+<span class="sd">        bands, and the number of rows per band respectively</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">false_positive_probability</span><span class="p">(</span><span class="n">th</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">band</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">rows</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Source: `datasketch.lsh`&quot;&quot;&quot;</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">proba</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
+            <span class="k">return</span> <span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">s</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">rows</span><span class="p">))</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">band</span><span class="p">)</span>
+
+        <span class="n">a</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">integrate</span><span class="o">.</span><span class="n">quad</span><span class="p">(</span><span class="n">proba</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">,</span> <span class="n">th</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">a</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">false_negative_probability</span><span class="p">(</span><span class="n">th</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">band</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">rows</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Source: `datasketch.lsh`&quot;&quot;&quot;</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">proba</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
+            <span class="k">return</span> <span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">s</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">rows</span><span class="p">))</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">band</span><span class="p">))</span>
+
+        <span class="n">a</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">integrate</span><span class="o">.</span><span class="n">quad</span><span class="p">(</span><span class="n">proba</span><span class="p">,</span> <span class="n">th</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">a</span>
+
+    <span class="c1"># object: minimize the weighted FP and FN ratio</span>
+    <span class="n">min_error</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">)</span>
+    <span class="n">opt</span> <span class="o">=</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">b</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">num_perm</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
+        <span class="n">max_r</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">num_perm</span> <span class="o">/</span> <span class="n">b</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">max_r</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
+            <span class="n">fp</span> <span class="o">=</span> <span class="n">false_positive_probability</span><span class="p">(</span><span class="n">threshold</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
+            <span class="n">fn</span> <span class="o">=</span> <span class="n">false_negative_probability</span><span class="p">(</span><span class="n">threshold</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
+            <span class="n">error</span> <span class="o">=</span> <span class="n">fp</span> <span class="o">*</span> <span class="n">false_positive_weight</span> <span class="o">+</span> <span class="n">fn</span> <span class="o">*</span> <span class="n">false_negative_weight</span>
+            <span class="k">if</span> <span class="n">error</span> <span class="o">&lt;</span> <span class="n">min_error</span><span class="p">:</span>
+                <span class="n">min_error</span> <span class="o">=</span> <span class="n">error</span>
+                <span class="n">opt</span> <span class="o">=</span> <span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">opt</span></div>
+
+
+
+<div class="viewcode-block" id="DocumentMinhashDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DocumentMinhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using MinHashLSH.</span>
+
+<span class="sd">    Different from simhash, minhash is stored as bytes, so they won&#39;t be</span>
+<span class="sd">    kept in the final dataset.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DocumentMinhashDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
+        <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+        <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">ignore_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_permutations</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+        <span class="n">jaccard_threshold</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]</span> <span class="o">=</span> <span class="mf">0.7</span><span class="p">,</span>
+        <span class="n">num_bands</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_rows_per_band</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tokenizer_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tokenization: tokenization method for sample texts. It</span>
+<span class="sd">            should be one of [space, punctuation, character,</span>
+<span class="sd">            sentencepiece]. For English-like languages, we recommend</span>
+<span class="sd">            to use &#39;space&#39;, for Chinese-like languages, we recommend</span>
+<span class="sd">            to use &#39;character&#39;, and for multiple languages, we recommend</span>
+<span class="sd">            to use &#39;sentencepiece&#39;. If using &#39;sentencepiece&#39;, please</span>
+<span class="sd">            provided the model path in the &#39;tokenizer_model&#39; field.</span>
+<span class="sd">        :param window_size: window size of shingling</span>
+<span class="sd">        :param lowercase: whether to convert text to lower case first</span>
+<span class="sd">        :param ignore_pattern: whether to ignore sub-strings with</span>
+<span class="sd">            specific pattern when computing minhash</span>
+<span class="sd">        :param num_permutations: number of permutations in minhash</span>
+<span class="sd">            computing</span>
+<span class="sd">        :param jaccard_threshold: the min jaccard similarity threshold</span>
+<span class="sd">            in near-duplicate detection. When the jaccard similarity of</span>
+<span class="sd">            two sample texts is &gt;= this threshold, they are regarded as</span>
+<span class="sd">            similar samples and this op will only keep one of them after</span>
+<span class="sd">            deduplication</span>
+<span class="sd">        :param num_bands: number of bands in LSH. Default it&#39;s None, and</span>
+<span class="sd">            it will be determined by an optimal params computation</span>
+<span class="sd">            algorithm by minimize the weighted sum of probs of False</span>
+<span class="sd">            Positives and False Negatives</span>
+<span class="sd">        :param num_rows_per_band: number of rows in each band in LSH.</span>
+<span class="sd">            Default it&#39;s None, and it will be determined by an optimal</span>
+<span class="sd">            params computation algorithm</span>
+<span class="sd">        :param tokenizer_model: path for the sentencepiece model, used for</span>
+<span class="sd">            sentencepiece tokenization.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="c1"># about minhash computation</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span> <span class="o">=</span> <span class="n">window_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">ignore_pattern</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">)</span>
+
+        <span class="c1"># check parameters</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Be careful that tokenization with punctuations &#39;</span>
+                           <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t work if the ignore pattern includes &#39;</span>
+                           <span class="s1">&#39;punctuations.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;\p</span><span class="si">{P}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">tokenizer_model</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;To use &#39;sentencepiece&#39; tokenization, &quot;</span>
+                                 <span class="s2">&quot;&#39;tokenizer_model&#39; is required.&quot;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">tokenizer_model</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="c1"># about deduplication</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span> <span class="o">=</span> <span class="n">num_permutations</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span> <span class="o">=</span> <span class="n">jaccard_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="o">=</span> <span class="n">num_bands</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">num_rows_per_band</span>
+
+        <span class="c1"># initialize deduplication parameters</span>
+        <span class="c1"># check number of bands and rows</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">optimal_param</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="c1"># compute hash ranges and create hash tables</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span> <span class="o">=</span> <span class="p">[(</span><span class="n">i</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">,</span>
+                             <span class="p">(</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">)</span>
+                            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">)]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span> <span class="o">=</span> <span class="p">[</span><span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">)]</span>
+
+        <span class="c1"># generate permutations</span>
+        <span class="n">gen</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">RandomState</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">42</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[(</span>
+                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
+                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">)],</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">,</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">T</span></div>
+
+
+<div class="viewcode-block" id="DocumentMinhashDeduplicator.compute_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compute minhash values for the sample.</span>
+
+<span class="sd">        :param sample: input sample</span>
+<span class="sd">        :return: sample with minhash value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+        <span class="c1"># get tokens for different tokenization method</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;character&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;space&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">out_type</span><span class="o">=</span><span class="nb">str</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">}</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Unimplemented tokenization method [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
+
+        <span class="c1"># compute minhash value</span>
+        <span class="n">hv</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">sha1_hash32</span><span class="p">(</span><span class="n">token</span><span class="p">)</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">tokens</span><span class="p">],</span>
+                      <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">)</span>
+        <span class="n">phv</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">bitwise_and</span><span class="p">(</span>
+            <span class="p">((</span><span class="n">hv</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">tile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">,</span>
+                           <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">hv</span><span class="p">),</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">T</span><span class="p">)</span><span class="o">.</span><span class="n">T</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span><span class="p">)</span> <span class="o">%</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span>
+            <span class="n">MAX_HASH</span><span class="p">)</span>
+        <span class="n">hash_values</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">vstack</span><span class="p">([</span>
+            <span class="n">phv</span><span class="p">,</span>
+            <span class="n">np</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">)</span> <span class="o">*</span> <span class="n">MAX_HASH</span>
+        <span class="p">])</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="nb">bytes</span><span class="p">(</span><span class="n">hash_values</span><span class="p">[</span><span class="n">start</span><span class="p">:</span><span class="n">end</span><span class="p">]</span><span class="o">.</span><span class="n">byteswap</span><span class="p">()</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">start</span><span class="p">,</span> <span class="n">end</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="DocumentMinhashDeduplicator.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># no need to deduplicate because too few samples</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
+
+        <span class="n">minhashes</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">]</span>
+        <span class="c1"># remove bytes minhash column otherwise unexpected error would occur</span>
+        <span class="c1"># when exporting the processed dataset</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">remove_columns</span><span class="p">([</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">])</span>
+
+        <span class="c1"># make clusters -- construct the minhash lookup tables of seg to ids</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start clustering for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples...&#39;</span><span class="p">)</span>
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="mi">10000</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">minhashes</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">),</span>
+                      <span class="n">dynamic_ncols</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                      <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Iterating MinHashes of samples...&#39;</span><span class="p">):</span>
+            <span class="n">batch</span> <span class="o">=</span> <span class="n">minhashes</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">hs</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">h</span><span class="p">,</span> <span class="n">hashtable</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">hs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span><span class="p">):</span>
+                    <span class="n">hashtable</span><span class="p">[</span><span class="n">h</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span> <span class="o">+</span> <span class="n">i</span><span class="p">)</span>
+
+        <span class="c1"># using UnionFind set to union samples within the same clusters</span>
+        <span class="n">union_find</span> <span class="o">=</span> <span class="n">UnionFind</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">table</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span><span class="p">,</span>
+                          <span class="n">dynamic_ncols</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                          <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Clustering&#39;</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">cluster</span> <span class="ow">in</span> <span class="n">table</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cluster</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="n">idx</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">cluster</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">cluster</span><span class="p">:</span>
+                    <span class="n">union_find</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">idx</span><span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">union_find</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">values</span><span class="p">()))</span><span class="si">}</span><span class="s1"> &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;clusters that includes multiple near-duplicate samples.&#39;</span><span class="p">)</span>
+
+        <span class="c1"># record the duplicate sample pairs</span>
+        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)):</span>
+                <span class="n">cluster_idx</span> <span class="o">=</span> <span class="n">union_find</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">cluster_idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dup_pairs</span> <span class="ow">and</span> <span class="n">cluster_idx</span> <span class="o">!=</span> <span class="n">i</span><span class="p">:</span>
+                    <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_idx</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">dataset</span><span class="p">[</span><span class="n">cluster_idx</span><span class="p">],</span>
+                        <span class="n">dataset</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
+                    <span class="p">]</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">show_num</span><span class="p">:</span>
+                    <span class="k">break</span>
+
+        <span class="c1"># filtering -- only keep those samples whose parent index is itself,</span>
+        <span class="c1"># including:</span>
+        <span class="c1"># 1. samples that form a cluster by themselves</span>
+        <span class="c1"># 2. the first sample in a cluster that includes multiple samples</span>
+        <span class="k">def</span><span class="w"> </span><span class="nf">_filter_minhash_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">index</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">union_find</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">index</span><span class="p">)</span> <span class="o">==</span> <span class="n">index</span>
+
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+            <span class="n">_filter_minhash_dup_helper</span><span class="p">,</span>
+            <span class="n">with_indices</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples after MinHash dedup.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
new file mode 100644
index 000000000..34102e38e
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
@@ -0,0 +1,347 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.document_simhash_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_simhash_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">defaultdict</span><span class="p">,</span> <span class="n">deque</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Set</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common.helper_func</span><span class="w"> </span><span class="kn">import</span> <span class="n">split_on_whitespace</span>
+
+<span class="n">simhash</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;simhash&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;document_simhash_deduplicator&#39;</span>
+
+
+<div class="viewcode-block" id="DocumentSimhashDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Deduplicator to deduplicate samples at document-level using SimHash.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DocumentSimhashDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
+                 <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
+                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">ignore_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">num_blocks</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
+                 <span class="n">hamming_distance</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method :param tokenization: tokenization method for</span>
+<span class="sd">        sample texts.</span>
+
+<span class="sd">        It should be one of [space, punctuation, character]. For</span>
+<span class="sd">        English-like languages, we recommend to use &#39;space&#39;. And for</span>
+<span class="sd">        Chinese-like languages, we recommend to use &#39;character&#39;</span>
+
+<span class="sd">        :param window_size: window size of shingling</span>
+<span class="sd">        :param lowercase: whether to convert text to lower case first</span>
+<span class="sd">        :param ignore_pattern: whether to ignore sub-strings with</span>
+<span class="sd">            specific pattern when computing simhash</span>
+<span class="sd">        :param num_blocks: number of blocks in simhash computing</span>
+<span class="sd">        :param hamming_distance: the max hamming distance threshold in</span>
+<span class="sd">            near-duplicate detection. When the hamming distance of two</span>
+<span class="sd">            sample texts is &lt;= this threshold, they are regarded as</span>
+<span class="sd">            similar samples and this op will only keep one of them after</span>
+<span class="sd">            deduplication. This threshold should be always less than</span>
+<span class="sd">            num_blocks</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># about simhash computation</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span> <span class="o">=</span> <span class="n">window_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">ignore_pattern</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">)</span>
+
+        <span class="c1"># check parameters</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Be careful that tokenization with punctuations &#39;</span>
+                           <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t work if the ignore pattern includes &#39;</span>
+                           <span class="s1">&#39;punctuations.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;\p</span><span class="si">{P}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="c1"># about deduplication</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_blocks</span> <span class="o">=</span> <span class="n">num_blocks</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span> <span class="o">=</span> <span class="n">hamming_distance</span></div>
+
+
+<div class="viewcode-block" id="DocumentSimhashDeduplicator.compute_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compute simhash values for the sample.</span>
+
+<span class="sd">        :param sample: input sample</span>
+<span class="sd">        :return: sample with simhash value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+        <span class="c1"># get tokens for different tokenization method</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;character&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;space&#39;</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+            <span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Unimplemented tokenization method [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
+
+        <span class="c1"># compute simhash</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span>
+            <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span><span class="n">simhash</span><span class="o">.</span><span class="n">compute</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="n">simhash</span><span class="o">.</span><span class="n">unsigned_hash</span><span class="p">,</span> <span class="n">tokens</span><span class="p">))))</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="DocumentSimhashDeduplicator.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># no need to deduplicate because too few samples</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
+
+        <span class="c1"># find matches</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start querying </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">simhash</span><span class="o">.</span><span class="n">find_all</span><span class="p">(</span>
+            <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]),</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_blocks</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Querying done, found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">matches</span><span class="p">)</span><span class="si">}</span><span class="s1"> matches.&#39;</span><span class="p">)</span>
+
+        <span class="c1"># compute hash diff distribution</span>
+        <span class="n">graph</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">dict</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">x</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+            <span class="n">y</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">y</span><span class="p">)</span>
+            <span class="n">graph</span><span class="p">[</span><span class="n">x</span><span class="p">][</span><span class="n">y</span><span class="p">]</span> <span class="o">=</span> <span class="n">graph</span><span class="p">[</span><span class="n">y</span><span class="p">][</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+        <span class="n">hashes</span><span class="p">:</span> <span class="n">Set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+        <span class="n">hash2cluster</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">visited</span><span class="p">:</span> <span class="n">Set</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">cluster_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]):</span>
+            <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">sid</span><span class="p">))</span>
+
+        <span class="c1"># clustering</span>
+        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{}</span>  <span class="c1"># store duplicate pairs when show_num &gt; 0</span>
+        <span class="k">while</span> <span class="n">hashes</span><span class="p">:</span>
+            <span class="n">hash_val</span> <span class="o">=</span> <span class="n">hashes</span><span class="o">.</span><span class="n">pop</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="n">visited</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># if this hash value is not in the matches list, it&#39;s regarded as a</span>
+            <span class="c1"># single cluster</span>
+            <span class="k">if</span> <span class="n">hash_val</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">graph</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># Otherwise, BFS to find the cluster</span>
+            <span class="n">q</span> <span class="o">=</span> <span class="n">deque</span><span class="p">([</span><span class="n">hash_val</span><span class="p">])</span>
+            <span class="n">visited</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">hash_val</span><span class="p">)</span>
+            <span class="n">hash2cluster</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span> <span class="o">=</span> <span class="n">cluster_id</span>
+            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">show_num</span><span class="p">:</span>
+                <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+
+            <span class="k">while</span> <span class="n">q</span><span class="p">:</span>
+                <span class="n">curr</span> <span class="o">=</span> <span class="n">q</span><span class="o">.</span><span class="n">popleft</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">neighbor</span> <span class="ow">in</span> <span class="n">graph</span><span class="p">[</span><span class="n">curr</span><span class="p">]:</span>
+                    <span class="k">if</span> <span class="n">neighbor</span> <span class="ow">in</span> <span class="n">visited</span><span class="p">:</span>
+                        <span class="k">continue</span>
+                    <span class="n">visited</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">neighbor</span><span class="p">)</span>
+                    <span class="n">q</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">neighbor</span><span class="p">)</span>
+                    <span class="n">hash2cluster</span><span class="p">[</span><span class="n">neighbor</span><span class="p">]</span> <span class="o">=</span> <span class="n">cluster_id</span>
+
+            <span class="n">cluster_id</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Found </span><span class="si">{</span><span class="n">cluster_id</span><span class="si">}</span><span class="s1"> clusters and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">graph</span><span class="p">)</span><span class="si">}</span><span class="s1"> hashes.&#39;</span><span class="p">)</span>
+
+        <span class="c1"># filter duplicated samples</span>
+        <span class="c1"># NOTICE: For now, we only keep the first sample in a cluster. Maybe</span>
+        <span class="c1"># there are some better strategies later.</span>
+        <span class="k">def</span><span class="w"> </span><span class="nf">_filter_simhash_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">visited_clusters</span><span class="p">,</span>
+                                       <span class="n">visited_hashes</span><span class="p">):</span>
+            <span class="n">sample_hash_val</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">sample_hash_val</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">hash2cluster</span><span class="p">:</span>
+                <span class="c1"># single-sample cluster, we need to check hash value still.</span>
+                <span class="k">if</span> <span class="n">sample_hash_val</span> <span class="ow">in</span> <span class="n">visited_hashes</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="kc">False</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">visited_hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sample_hash_val</span><span class="p">)</span>
+                    <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">cluster_num</span> <span class="o">=</span> <span class="n">hash2cluster</span><span class="p">[</span><span class="n">sample_hash_val</span><span class="p">]</span>
+                <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">cluster_num</span> <span class="ow">in</span> <span class="n">dup_pairs</span> \
+                        <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_num</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
+                    <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_num</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+                <span class="c1"># regular cluster, check cluster number.</span>
+                <span class="k">if</span> <span class="n">cluster_num</span> <span class="ow">in</span> <span class="n">visited_clusters</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="kc">False</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">visited_clusters</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">cluster_num</span><span class="p">)</span>
+                    <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">cluster_record</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">hash_record</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+            <span class="n">_filter_simhash_dup_helper</span><span class="p">,</span>
+            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">visited_clusters</span><span class="o">=</span><span class="n">cluster_record</span><span class="p">,</span>
+                           <span class="n">visited_hashes</span><span class="o">=</span><span class="n">hash_record</span><span class="p">),</span>
+            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples after SimHash dedup.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/image_deduplicator.html b/_modules/data_juicer/ops/deduplicator/image_deduplicator.html
new file mode 100644
index 000000000..93977f8cd
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/image_deduplicator.html
@@ -0,0 +1,269 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.image_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.image_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">defaultdict</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Set</span><span class="p">,</span> <span class="n">Tuple</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.document_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="n">DocumentDeduplicator</span>
+
+<span class="n">imgdedup_methods</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;imgdedup_methods&#39;</span><span class="p">,</span> <span class="s1">&#39;imagededup.methods&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_deduplicator&#39;</span>
+
+<span class="n">HASH_METHOD</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;phash&#39;</span><span class="p">,</span> <span class="s1">&#39;dhash&#39;</span><span class="p">,</span> <span class="s1">&#39;whash&#39;</span><span class="p">,</span> <span class="s1">&#39;ahash&#39;</span><span class="p">}</span>
+
+
+<div class="viewcode-block" id="get_hash_method">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_hash_method</span><span class="p">(</span><span class="n">method_name</span><span class="p">):</span>
+
+    <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;phash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">PHash</span><span class="p">,</span>
+        <span class="s1">&#39;dhash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">DHash</span><span class="p">,</span>
+        <span class="s1">&#39;whash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">WHash</span><span class="p">,</span>
+        <span class="s1">&#39;ahash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">AHash</span>
+    <span class="p">}</span>
+
+    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="ImageDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching</span>
+<span class="sd">    of images between documents.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ImageDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;phash&#39;</span><span class="p">,</span>
+                 <span class="n">consider_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param method: hash method for image</span>
+<span class="sd">        :param consider_text: whether to consider text hash together with image</span>
+<span class="sd">            hash when applying deduplication.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">HASH_METHOD</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of </span><span class="si">{</span><span class="n">HASH_METHOD</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hasher</span> <span class="o">=</span> <span class="n">get_hash_method</span><span class="p">(</span><span class="n">method</span><span class="p">)()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span> <span class="o">=</span> <span class="n">consider_text</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span> <span class="o">=</span> <span class="n">DocumentDeduplicator</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageDeduplicator.compute_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># get hash of text first</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+            <span class="n">sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="c1"># compute hash</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">]</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hasher</span><span class="o">.</span><span class="n">encode_image</span><span class="p">(</span>
+                <span class="n">image_array</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]))</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageDeduplicator.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># no need to deduplicate because too few samples</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
+
+        <span class="n">dup_hashes</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># sample duplicate pairs</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+                <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+                <span class="n">hashes</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">],</span>
+                             <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+                <span class="n">hashes</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">hashes</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">hash_val</span><span class="p">:</span>
+                    <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
+            <span class="n">dup_samples</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">hash2ids</span><span class="o">.</span><span class="n">items</span><span class="p">()),</span>
+                                 <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="mi">1</span><span class="p">]),</span>
+                                 <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">dup_hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span>
+                <span class="n">item</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dup_samples</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">item</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">1</span>
+            <span class="p">][:</span><span class="n">show_num</span><span class="p">])</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_filter_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">hashes</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+                <span class="nb">hash</span> <span class="o">=</span> <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="nb">hash</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">imagehash</span><span class="p">]</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hash</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">dup_hashes</span> \
+                    <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
+                <span class="c1"># tracer is open and not enough duplicate sample pairs</span>
+                <span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">hashes</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">hash</span><span class="p">)</span>
+                <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{</span><span class="n">hash_v</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">hash_v</span> <span class="ow">in</span> <span class="n">dup_hashes</span><span class="p">}</span> <span class="k">if</span> <span class="n">dup_hashes</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+            <span class="n">_filter_dup_helper</span><span class="p">,</span>
+            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">hashes</span><span class="o">=</span><span class="n">hashes</span><span class="p">),</span>
+            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>  <span class="c1"># num_proc=1</span>
+        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html
new file mode 100644
index 000000000..ab4b26239
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html
@@ -0,0 +1,274 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.ray_basic_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.ray_basic_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.ray_basic_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">abc</span><span class="w"> </span><span class="kn">import</span> <span class="n">ABC</span><span class="p">,</span> <span class="n">abstractmethod</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">ray</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">Filter</span>
+
+<span class="n">redis</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;redis&#39;</span><span class="p">,</span> <span class="s1">&#39;redis&#39;</span><span class="p">)</span>
+
+<span class="n">MERSENNE_PRIME</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">61</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+
+
+<span class="nd">@ray</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">scheduling_strategy</span><span class="o">=</span><span class="s1">&#39;SPREAD&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DedupSet</span><span class="p">:</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hash_record</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_unique</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_record</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">hash_record</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="Backend">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Backend</span><span class="p">(</span><span class="n">ABC</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Backend for deduplicator.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Backend.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__">[docs]</a>
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">pass</span></div>
+
+
+<div class="viewcode-block" id="Backend.is_unique">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique">[docs]</a>
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_unique</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">md5_value</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">pass</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="ActorBackend">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">ActorBackend</span><span class="p">(</span><span class="n">Backend</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Ray actor backend for deduplicator.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ActorBackend.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dedup_set_num</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dedup_set_num</span> <span class="o">=</span> <span class="n">dedup_set_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dedup_sets</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">DedupSet</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dedup_set_num</span><span class="p">)</span>
+        <span class="p">]</span></div>
+
+
+<div class="viewcode-block" id="ActorBackend.is_unique">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_unique</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">md5_value</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">dedup_set_id</span> <span class="o">=</span> <span class="nb">int</span><span class="o">.</span><span class="n">from_bytes</span><span class="p">(</span>
+            <span class="n">md5_value</span><span class="o">.</span><span class="n">encode</span><span class="p">(),</span>
+            <span class="n">byteorder</span><span class="o">=</span><span class="s1">&#39;little&#39;</span><span class="p">)</span> <span class="o">%</span> <span class="n">MERSENNE_PRIME</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">dedup_set_num</span>
+        <span class="k">return</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dedup_sets</span><span class="p">[</span><span class="n">dedup_set_id</span><span class="p">]</span><span class="o">.</span><span class="n">is_unique</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">md5_value</span><span class="p">))</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="RedisBackend">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">RedisBackend</span><span class="p">(</span><span class="n">Backend</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Redis backend for deduplicator.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RedisBackend.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">redis_address</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">redis_address</span> <span class="o">=</span> <span class="n">redis_address</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">redis_client</span> <span class="o">=</span> <span class="n">redis</span><span class="o">.</span><span class="n">from_url</span><span class="p">(</span><span class="n">url</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">redis_address</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">redis_client</span><span class="o">.</span><span class="n">flushdb</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RedisBackend.is_unique">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">is_unique</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">md5_value</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">redis_client</span><span class="o">.</span><span class="n">setnx</span><span class="p">(</span><span class="n">md5_value</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="RayBasicDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">RayBasicDeduplicator</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A basic exact matching deduplicator for RAY.</span>
+<span class="sd">    Although its functionality is deduplication,</span>
+<span class="sd">    it is implemented as Filter sub-class.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># TODO: Set a more reasonable value</span>
+    <span class="n">EMPTY_HASH_VALUE</span> <span class="o">=</span> <span class="s1">&#39;EMPTY&#39;</span>
+
+<div class="viewcode-block" id="RayBasicDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">backend</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ray_actor&#39;</span><span class="p">,</span>
+                 <span class="n">redis_address</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;redis://localhost:6379&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization.</span>
+<span class="sd">        :param backend: the backend for dedup, either &#39;ray_actor&#39; or &#39;redis&#39;</span>
+<span class="sd">        :param redis_address: the address of redis server</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">redis_address</span> <span class="o">=</span> <span class="n">redis_address</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">=</span> <span class="n">backend</span>
+        <span class="k">if</span> <span class="n">backend</span> <span class="o">==</span> <span class="s1">&#39;ray_actor&#39;</span><span class="p">:</span>
+            <span class="n">dedup_set_num</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">ray</span><span class="o">.</span><span class="n">cluster_resources</span><span class="p">()</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;CPU&#39;</span><span class="p">)</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">=</span> <span class="n">ActorBackend</span><span class="p">(</span><span class="n">dedup_set_num</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">backend</span> <span class="o">==</span> <span class="s1">&#39;redis&#39;</span><span class="p">:</span>
+            <span class="c1"># TODO: add a barrier to ensure that flushdb is performed before</span>
+            <span class="c1"># the operator is called</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">=</span> <span class="n">RedisBackend</span><span class="p">(</span><span class="n">redis_address</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unknown backend: </span><span class="si">{</span><span class="n">backend</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayBasicDeduplicator.calculate_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Calculate hash value for the sample.&quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+
+
+<div class="viewcode-block" id="RayBasicDeduplicator.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># compute hash</span>
+        <span class="n">md5_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">calculate_hash</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">)</span>
+        <span class="c1"># check existing</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">is_unique</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span><span class="o">.</span><span class="n">is_unique</span><span class="p">(</span><span class="n">md5_value</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="RayBasicDeduplicator.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">is_unique</span><span class="p">]</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html
new file mode 100644
index 000000000..547907ba8
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html
@@ -0,0 +1,699 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">time</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">pyarrow</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">pa</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">ray</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">prepare_sentencepiece_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common.helper_func</span><span class="w"> </span><span class="kn">import</span> <span class="n">split_on_whitespace</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.document_minhash_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">MAX_HASH</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span>
+                                            <span class="n">optimal_param</span><span class="p">,</span> <span class="n">sha1_hash32</span><span class="p">)</span>
+
+<span class="n">BATCH_SIZE</span> <span class="o">=</span> <span class="mi">1000</span>
+
+
+<span class="nd">@ray</span><span class="o">.</span><span class="n">remote</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">IdGenerator</span><span class="p">:</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">start_id</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">next_id</span> <span class="o">=</span> <span class="n">start_id</span>
+
+    <span class="nd">@ray</span><span class="o">.</span><span class="n">method</span><span class="p">(</span><span class="n">num_returns</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_next_id</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">count</span><span class="p">):</span>
+        <span class="n">current_id</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">next_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">next_id</span> <span class="o">+=</span> <span class="n">count</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">current_id</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">next_id</span><span class="p">)</span>
+
+
+<span class="nd">@ray</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">scheduling_strategy</span><span class="o">=</span><span class="s1">&#39;SPREAD&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">EdgeBuffer</span><span class="p">:</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">clear</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">set_edges</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">edge_dict</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_dict</span> <span class="o">=</span> <span class="n">edge_dict</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_edges</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_dict</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">[])</span>
+
+
+<span class="nd">@ray</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">scheduling_strategy</span><span class="o">=</span><span class="s1">&#39;SPREAD&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">BTSUnionFind</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A distributed implementation of Union-Find with load balancing.</span>
+
+<span class="sd">    The original paper on BTS Union-Find is available at:</span>
+<span class="sd">    https://ieeexplore.ieee.org/document/10598116</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">union_threshold</span><span class="p">,</span>
+        <span class="n">parallel_num</span><span class="p">,</span>
+        <span class="n">parallel_id</span><span class="p">,</span>
+        <span class="n">remote_edge_buffers</span><span class="p">,</span>
+        <span class="n">max_pending_edge_buffer_task</span><span class="p">,</span>
+        <span class="n">num_edge_buffer_task_returns</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">union_threshold</span> <span class="o">=</span> <span class="n">union_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span> <span class="o">=</span> <span class="n">parallel_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span> <span class="o">=</span> <span class="n">parallel_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">old_parent</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span> <span class="o">=</span> <span class="n">remote_edge_buffers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_edge_buffer_task</span> <span class="o">=</span> <span class="n">max_pending_edge_buffer_task</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_edge_buffer_task_returns</span> <span class="o">=</span> <span class="n">num_edge_buffer_task_returns</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">add_key_value_pairs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pairs</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">pairs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">[</span><span class="n">key</span><span class="p">])</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_threshold</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">union_list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="p">[</span><span class="n">key</span><span class="p">])]</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">flush_key_value_pairs</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">value</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union_list</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
+        <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_table</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">balanced_union_find</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">result_refs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">remote_edge_buffer</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span><span class="p">:</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_edge_buffer_task</span><span class="p">:</span>
+                <span class="n">ready_refs</span><span class="p">,</span> <span class="n">result_refs</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">wait</span><span class="p">(</span>
+                    <span class="n">result_refs</span><span class="p">,</span> <span class="n">num_returns</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_edge_buffer_task_returns</span><span class="p">)</span>
+                <span class="n">edge_list</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ready_refs</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">edges</span> <span class="ow">in</span> <span class="n">edge_list</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="n">edges</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">)</span>
+                <span class="k">del</span> <span class="n">ready_refs</span>
+            <span class="n">result_refs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">remote_edge_buffer</span><span class="o">.</span><span class="n">get_edges</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">))</span>
+        <span class="n">edge_list</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">edges</span> <span class="ow">in</span> <span class="n">edge_list</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="n">edges</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">)</span>
+        <span class="k">del</span> <span class="n">edge_list</span><span class="p">,</span> <span class="n">result_refs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rebalancing</span><span class="p">()</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">old_parent</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">distribute_edge</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">u</span><span class="p">,</span> <span class="n">v</span><span class="p">):</span>
+        <span class="n">hash_u</span> <span class="o">=</span> <span class="n">u</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+        <span class="n">hash_v</span> <span class="o">=</span> <span class="n">v</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+        <span class="k">if</span> <span class="n">hash_u</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="n">hash_u</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="n">hash_u</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">u</span><span class="p">,</span> <span class="n">v</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">hash_u</span> <span class="o">!=</span> <span class="n">hash_v</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">hash_v</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="n">hash_v</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="n">hash_v</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">u</span><span class="p">,</span> <span class="n">v</span><span class="p">))</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">set_edge_buffer</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">]</span>
+            <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">]</span><span class="o">.</span><span class="n">set_edges</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">edge_redistribution</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">flush_key_value_pairs</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rebalancing</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">u</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">distribute_edge</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">set_edge_buffer</span><span class="p">()</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">communication</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_list_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">del_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">u</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">hash_u</span> <span class="o">=</span> <span class="n">u</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">u</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">old_parent</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">u</span><span class="p">)</span> <span class="ow">or</span> <span class="p">(</span>
+                    <span class="n">hash_u</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span> <span class="ow">and</span> <span class="n">v</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">distribute_edge</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">hash_u</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">:</span>
+                <span class="n">del_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">u</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">old_parent</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">u</span> <span class="ow">in</span> <span class="n">del_list</span><span class="p">:</span>
+            <span class="k">del</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">u</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">set_edge_buffer</span><span class="p">()</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">x</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">union</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
+        <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+        <span class="n">py</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">y</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">px</span> <span class="o">==</span> <span class="n">py</span><span class="p">:</span>
+            <span class="k">return</span>
+        <span class="k">if</span> <span class="n">px</span> <span class="o">&gt;</span> <span class="n">py</span><span class="p">:</span>
+            <span class="n">px</span><span class="p">,</span> <span class="n">py</span> <span class="o">=</span> <span class="n">py</span><span class="p">,</span> <span class="n">px</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="n">px</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">union_list</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x_list</span><span class="p">):</span>
+        <span class="n">px_list</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">x_list</span><span class="p">]</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px_list</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">px</span> <span class="ow">in</span> <span class="n">px_list</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">p</span> <span class="o">!=</span> <span class="n">px</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="n">p</span>
+        <span class="k">return</span> <span class="n">p</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">rebalancing</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">new_px_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
+            <span class="n">hash_x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+            <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+            <span class="n">key</span> <span class="o">=</span> <span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">hash_x</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">new_px_dict</span><span class="p">:</span>
+                <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="n">x</span><span class="p">)</span>
+        <span class="n">px_set</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">px</span> <span class="k">for</span> <span class="n">px</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">new_px_dict</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">px</span> <span class="ow">in</span> <span class="n">px_set</span><span class="p">:</span>
+            <span class="n">hash_px</span> <span class="o">=</span> <span class="n">px</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+            <span class="n">key</span> <span class="o">=</span> <span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">hash_px</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">new_px_dict</span><span class="p">:</span>
+                <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">px</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="n">px</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
+            <span class="n">hash_x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span>
+            <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+            <span class="n">key</span> <span class="o">=</span> <span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">hash_x</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">x</span> <span class="o">==</span> <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]:</span>
+                <span class="k">continue</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="n">new_px_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">squeeze</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">dup_keys</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">x</span>
+            <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span>
+            <span class="k">if</span> <span class="n">x</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_num</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span>
+        <span class="p">}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span> <span class="o">=</span> <span class="n">dup_keys</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">old_parent</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">edge_buffer</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">parallel_id</span><span class="p">]</span><span class="o">.</span><span class="n">clear</span><span class="o">.</span><span class="n">remote</span><span class="p">())</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">dup_idx</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">queries</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">idx</span> <span class="k">for</span> <span class="n">uid</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">queries</span> <span class="k">if</span> <span class="n">uid</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">]</span>
+
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;ray_bts_minhash_deduplicator&#39;</span>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RayBTSMinhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A MinhashLSH deduplicator based on RAY.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># TODO: Set a more reasonable value</span>
+    <span class="n">EMPTY_HASH_VALUE</span> <span class="o">=</span> <span class="s1">&#39;EMPTY&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
+        <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+        <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">ignore_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_permutations</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+        <span class="n">jaccard_threshold</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]</span> <span class="o">=</span> <span class="mf">0.7</span><span class="p">,</span>
+        <span class="n">num_bands</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_rows_per_band</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tokenizer_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">union_find_parallel_num</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;auto&#39;</span><span class="p">,</span>
+        <span class="n">union_threshold</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+        <span class="n">max_pending_edge_buffer_task</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
+        <span class="n">num_edge_buffer_task_returns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+        <span class="n">max_pending_filter_tasks</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
+        <span class="n">num_filter_task_returns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+        <span class="n">merge_batch_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tokenization: tokenization method for sample texts. It</span>
+<span class="sd">            should be one of [space, punctuation, character,</span>
+<span class="sd">            sentencepiece]. For English-like languages, we recommend</span>
+<span class="sd">            to use &#39;space&#39;, for Chinese-like languages, we recommend</span>
+<span class="sd">            to use &#39;character&#39;, and for multiple languages, we recommend</span>
+<span class="sd">            to use &#39;sentencepiece&#39;. If using &#39;sentencepiece&#39;, please</span>
+<span class="sd">            provided the model path in the &#39;tokenizer_model&#39; field.</span>
+<span class="sd">        :param window_size: window size of shingling</span>
+<span class="sd">        :param lowercase: whether to convert text to lower case first</span>
+<span class="sd">        :param ignore_pattern: whether to ignore sub-strings with</span>
+<span class="sd">            specific pattern when computing minhash</span>
+<span class="sd">        :param num_permutations: number of permutations in minhash</span>
+<span class="sd">            computing</span>
+<span class="sd">        :param jaccard_threshold: the min jaccard similarity threshold</span>
+<span class="sd">            in near-duplicate detection. When the jaccard similarity of</span>
+<span class="sd">            two sample texts is &gt;= this threshold, they are regarded as</span>
+<span class="sd">            similar samples and this op will only keep one of them after</span>
+<span class="sd">            deduplication</span>
+<span class="sd">        :param num_bands: number of bands in LSH. Default it&#39;s None, and</span>
+<span class="sd">            it will be determined by an optimal params computation</span>
+<span class="sd">            algorithm by minimize the weighted sum of probs of False</span>
+<span class="sd">            Positives and False Negatives</span>
+<span class="sd">        :param num_rows_per_band: number of rows in each band in LSH.</span>
+<span class="sd">            Default it&#39;s None, and it will be determined by an optimal</span>
+<span class="sd">            params computation algorithm</span>
+<span class="sd">        :param tokenizer_model: path for the sentencepiece model, used for</span>
+<span class="sd">            sentencepiece tokenization.</span>
+<span class="sd">        :param union_find_parallel_num: number of parallel workers for</span>
+<span class="sd">            union-find algorithm. Default it&#39;s &#39;auto&#39;, and it will be</span>
+<span class="sd">            determined by half of the number of CPUs.</span>
+<span class="sd">        :param union_threshold: threshold for minhash values group to</span>
+<span class="sd">            perform union-find algorightm. Default it&#39;s 256.</span>
+<span class="sd">        :param max_pending_edge_buffer_task: max number of pending edge buffer</span>
+<span class="sd">            ray tasks. Default it&#39;s 20.</span>
+<span class="sd">        :param num_edge_buffer_task_returns: number of edge buffer tasks for</span>
+<span class="sd">            `ray.wait` to return. Default it&#39;s 10.</span>
+<span class="sd">        :param max_pending_filter_tasks: max number of pending filter ray</span>
+<span class="sd">            tasks. Default it&#39;s 20.</span>
+<span class="sd">        :param num_filter_task_returns: number of filter tasks for `ray.wait`</span>
+<span class="sd">            to return. Default it&#39;s 10.</span>
+<span class="sd">        :param merge_batch_size: batch size for BTS operations. Default</span>
+<span class="sd">            it&#39;s 1000.</span>
+<span class="sd">        :param tmp_file_name: the temporary folder name for deduplication.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="c1"># about minhash computation</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span> <span class="o">=</span> <span class="n">window_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">ignore_pattern</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">)</span>
+
+        <span class="c1"># check parameters</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Be careful that tokenization with punctuations &#39;</span>
+                           <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t work if the ignore pattern includes &#39;</span>
+                           <span class="s1">&#39;punctuations.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;\p</span><span class="si">{P}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">tokenizer_model</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;To use &#39;sentencepiece&#39; tokenization, &quot;</span>
+                                 <span class="s2">&quot;&#39;tokenizer_model&#39; is required.&quot;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">tokenizer_model</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;character&#39;</span><span class="p">:</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">tokenization_func</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+                <span class="k">return</span> <span class="p">{</span>
+                    <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">])</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+                <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">tokenization_func</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+                <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+                <span class="k">return</span> <span class="p">{</span>
+                    <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+                <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;space&#39;</span><span class="p">:</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">tokenization_func</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+                <span class="n">tokens</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+                <span class="k">return</span> <span class="p">{</span>
+                    <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+                <span class="p">}</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span>
+
+            <span class="k">def</span><span class="w"> </span><span class="nf">tokenization_func</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+                <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">out_type</span><span class="o">=</span><span class="nb">str</span><span class="p">)</span>
+                <span class="k">return</span> <span class="p">{</span>
+                    <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
+                <span class="p">}</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Unimplemented tokenization method [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization_func</span> <span class="o">=</span> <span class="n">tokenization_func</span>
+
+        <span class="c1"># about deduplication</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span> <span class="o">=</span> <span class="n">num_permutations</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span> <span class="o">=</span> <span class="n">jaccard_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="o">=</span> <span class="n">num_bands</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">num_rows_per_band</span>
+
+        <span class="c1"># initialize deduplication parameters</span>
+        <span class="c1"># check number of bands and rows</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">optimal_param</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="c1"># compute hash ranges and create hash tables</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span> <span class="o">=</span> <span class="p">[(</span><span class="n">i</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">,</span>
+                             <span class="p">(</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">)</span>
+                            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">)]</span>
+
+        <span class="c1"># generate permutations</span>
+        <span class="n">gen</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">RandomState</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">42</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[(</span>
+                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
+                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">)],</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">,</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">T</span>
+
+        <span class="k">if</span> <span class="n">union_find_parallel_num</span> <span class="o">==</span> <span class="s1">&#39;auto&#39;</span><span class="p">:</span>
+            <span class="n">union_find_parallel_num</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">ray</span><span class="o">.</span><span class="n">cluster_resources</span><span class="p">()</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;CPU&#39;</span><span class="p">)</span> <span class="o">/</span>
+                                          <span class="mi">2</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">union_find_parallel_num</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">union_find_parallel_num</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_edge_buffer_task</span> <span class="o">=</span> <span class="n">max_pending_edge_buffer_task</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_edge_buffer_task_returns</span> <span class="o">=</span> <span class="n">num_edge_buffer_task_returns</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_filter_tasks</span> <span class="o">=</span> <span class="n">max_pending_filter_tasks</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_filter_task_returns</span> <span class="o">=</span> <span class="n">num_filter_task_returns</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">merge_batch_size</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">merge_batch_size</span><span class="p">,</span> <span class="n">union_find_parallel_num</span><span class="p">)</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;union_find_parallel_num = </span><span class="si">{</span><span class="n">union_find_parallel_num</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span> <span class="o">=</span> <span class="n">union_find_parallel_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">union_threshold</span> <span class="o">=</span> <span class="n">union_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">EdgeBuffer</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">BTSUnionFind</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union_threshold</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span><span class="p">,</span>
+                <span class="n">i</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">remote_edge_buffers</span><span class="p">,</span>  <span class="c1"># TODO: fix this</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_edge_buffer_task</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">num_edge_buffer_task_returns</span><span class="p">,</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span><span class="p">)</span>
+        <span class="p">]</span>
+
+        <span class="n">empty_hash_value</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">((</span><span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">,</span> <span class="p">),</span>
+                                   <span class="n">MAX_HASH</span><span class="p">,</span>
+                                   <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint32</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_value</span> <span class="o">=</span> <span class="sa">b</span><span class="s1">&#39;</span><span class="se">\x00\x00\x00\x00</span><span class="s1">&#39;</span> \
+            <span class="o">+</span> <span class="n">empty_hash_value</span><span class="o">.</span><span class="n">tobytes</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_table_id</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">MAX_HASH</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.calc_minhash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">calc_minhash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_list</span><span class="p">:</span> <span class="n">pa</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">uid_list</span><span class="p">:</span> <span class="n">List</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">:</span>
+        <span class="n">pairs</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">for</span> <span class="n">text</span><span class="p">,</span> <span class="n">uid</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">text_list</span><span class="p">,</span> <span class="n">uid_list</span><span class="p">):</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">as_py</span><span class="p">()</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization_func</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">hv</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">sha1_hash32</span><span class="p">(</span><span class="n">token</span><span class="p">)</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">tokens</span><span class="p">],</span>
+                              <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">)</span>
+                <span class="n">phv</span> <span class="o">=</span> <span class="p">((</span><span class="n">hv</span><span class="p">[:,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span><span class="p">)</span> <span class="o">%</span>
+                       <span class="n">MERSENNE_PRIME</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">uint32</span><span class="p">)</span>
+                <span class="n">hash_values</span> <span class="o">=</span> <span class="n">phv</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">start</span><span class="p">,</span> <span class="n">end</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span><span class="p">):</span>
+                    <span class="n">hash_value</span> <span class="o">=</span> <span class="n">i</span><span class="o">.</span><span class="n">to_bytes</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span> <span class="s1">&#39;big&#39;</span><span class="p">)</span> \
+                        <span class="o">+</span> <span class="n">hash_values</span><span class="p">[</span><span class="n">start</span><span class="p">:</span><span class="n">end</span><span class="p">]</span><span class="o">.</span><span class="n">tobytes</span><span class="p">()</span>
+                    <span class="n">hash_table_id</span> <span class="o">=</span> <span class="n">hash_values</span><span class="p">[</span><span class="n">start</span><span class="p">]</span> \
+                        <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span>
+                    <span class="k">if</span> <span class="n">hash_table_id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">pairs</span><span class="p">:</span>
+                        <span class="n">pairs</span><span class="p">[</span><span class="n">hash_table_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+                    <span class="n">pairs</span><span class="p">[</span><span class="n">hash_table_id</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">hash_value</span><span class="p">,</span> <span class="n">uid</span><span class="p">))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_table_id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">pairs</span><span class="p">:</span>
+                    <span class="n">pairs</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_table_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="n">pairs</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_table_id</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">empty_hash_value</span><span class="p">,</span> <span class="n">uid</span><span class="p">))</span>
+        <span class="n">result_refs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">pairs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_filter_tasks</span><span class="p">:</span>
+                <span class="n">ready_refs</span><span class="p">,</span> <span class="n">result_refs</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">wait</span><span class="p">(</span>
+                    <span class="n">result_refs</span><span class="p">,</span> <span class="n">num_returns</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_filter_task_returns</span><span class="p">)</span>
+                <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ready_refs</span><span class="p">)</span>
+            <span class="n">result_refs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">add_key_value_pairs</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">p</span><span class="p">))</span>
+        <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.merge_op_batch">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">merge_op_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">object_refs</span><span class="p">):</span>
+        <span class="n">results</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">while</span> <span class="n">object_refs</span><span class="p">:</span>
+            <span class="n">ready_refs</span><span class="p">,</span> <span class="n">object_refs</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">wait</span><span class="p">(</span><span class="n">object_refs</span><span class="p">,</span>
+                                               <span class="n">num_returns</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span>
+                                                   <span class="bp">self</span><span class="o">.</span><span class="n">merge_batch_size</span><span class="p">,</span>
+                                                   <span class="nb">len</span><span class="p">(</span><span class="n">object_refs</span><span class="p">)))</span>
+            <span class="n">results</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ready_refs</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">results</span></div>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.merge">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">merge</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">merge_op_batch</span><span class="p">([</span>
+            <span class="n">union_find</span><span class="o">.</span><span class="n">edge_redistribution</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">union_find</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span>
+        <span class="p">])</span>
+        <span class="k">while</span> <span class="nb">any</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">merge_op_batch</span><span class="p">([</span>
+                    <span class="n">union_find</span><span class="o">.</span><span class="n">balanced_union_find</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">union_find</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span>
+                <span class="p">])):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">merge_op_batch</span><span class="p">([</span>
+                <span class="n">union_find</span><span class="o">.</span><span class="n">communication</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">union_find</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span>
+            <span class="p">])</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">merge_op_batch</span><span class="p">([</span>
+            <span class="n">union_find</span><span class="o">.</span><span class="n">squeeze</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span> <span class="k">for</span> <span class="n">union_find</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span>
+        <span class="p">])</span></div>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.filter_with_union_find">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">filter_with_union_find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">:</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">:</span>
+        <span class="n">query_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">uid</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">uid</span><span class="p">]):</span>
+            <span class="n">uid</span> <span class="o">=</span> <span class="n">uid</span><span class="o">.</span><span class="n">as_py</span><span class="p">()</span>
+            <span class="n">hash_id</span> <span class="o">=</span> <span class="n">uid</span> <span class="o">//</span> <span class="n">BATCH_SIZE</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">union_find_parallel_num</span>
+            <span class="k">if</span> <span class="n">hash_id</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">query_dict</span><span class="p">:</span>
+                <span class="n">query_dict</span><span class="p">[</span><span class="n">hash_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">query_dict</span><span class="p">[</span><span class="n">hash_id</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">uid</span><span class="p">,</span> <span class="n">idx</span><span class="p">))</span>
+        <span class="n">mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">bool_</span><span class="p">)</span>
+        <span class="n">result_refs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">hash_id</span><span class="p">,</span> <span class="n">query</span> <span class="ow">in</span> <span class="n">query_dict</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_pending_filter_tasks</span><span class="p">:</span>
+                <span class="n">ready_refs</span><span class="p">,</span> <span class="n">result_refs</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">wait</span><span class="p">(</span>
+                    <span class="n">result_refs</span><span class="p">,</span> <span class="n">num_returns</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_filter_task_returns</span><span class="p">)</span>
+                <span class="n">results</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ready_refs</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span><span class="p">:</span>
+                    <span class="n">mask</span><span class="p">[</span><span class="n">result</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="k">del</span> <span class="n">ready_refs</span>
+            <span class="n">result_refs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">union_find_list</span><span class="p">[</span><span class="n">hash_id</span><span class="p">]</span><span class="o">.</span><span class="n">dup_idx</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">query</span><span class="p">))</span>
+        <span class="n">results</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">result_refs</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">result</span> <span class="ow">in</span> <span class="n">results</span><span class="p">:</span>
+            <span class="n">mask</span><span class="p">[</span><span class="n">result</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">del</span> <span class="n">query_dict</span><span class="p">,</span> <span class="n">results</span>
+        <span class="n">columns_to_keep</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">name</span> <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">samples</span><span class="o">.</span><span class="n">column_names</span> <span class="k">if</span> <span class="n">name</span> <span class="o">!=</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">uid</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">columns_to_keep</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">mask</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayBTSMinhashDeduplicator.run">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">id_generator</span> <span class="o">=</span> <span class="n">IdGenerator</span><span class="o">.</span><span class="n">remote</span><span class="p">()</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">minhash_with_uid</span><span class="p">(</span><span class="n">table</span><span class="p">:</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pa</span><span class="o">.</span><span class="n">Table</span><span class="p">:</span>
+            <span class="n">num_rows</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">table</span><span class="p">)</span>
+            <span class="n">min_id</span><span class="p">,</span> <span class="n">max_id</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">id_generator</span><span class="o">.</span><span class="n">get_next_id</span><span class="o">.</span><span class="n">remote</span><span class="p">(</span><span class="n">num_rows</span><span class="p">))</span>
+            <span class="n">uid_list</span> <span class="o">=</span> <span class="nb">range</span><span class="p">(</span><span class="n">min_id</span><span class="p">,</span> <span class="n">max_id</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">calc_minhash</span><span class="p">(</span><span class="n">table</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">uid_list</span><span class="p">)</span>
+            <span class="n">new_table</span> <span class="o">=</span> <span class="n">table</span><span class="o">.</span><span class="n">append_column</span><span class="p">(</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">uid</span><span class="p">,</span>
+                                            <span class="n">pa</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">uid_list</span><span class="p">)))</span>
+            <span class="k">return</span> <span class="n">new_table</span>
+
+        <span class="n">tmp_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;.tmp&#39;</span><span class="p">,</span>
+                               <span class="n">ray</span><span class="o">.</span><span class="n">get_runtime_context</span><span class="p">()</span><span class="o">.</span><span class="n">get_job_id</span><span class="p">())</span>
+        <span class="n">dataset</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span>
+            <span class="n">minhash_with_uid</span><span class="p">,</span>
+            <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+            <span class="n">zero_copy_batch</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">write_parquet</span><span class="p">(</span><span class="n">tmp_dir</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">ray</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">read_parquet</span><span class="p">(</span><span class="n">tmp_dir</span><span class="p">)</span>
+        <span class="n">end_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;MinHash time = </span><span class="si">{</span><span class="n">end_time</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start_time</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">merge</span><span class="p">()</span>
+        <span class="n">end_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;merge time = </span><span class="si">{</span><span class="n">end_time</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start_time</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">filter_with_union_find</span><span class="p">,</span>
+            <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+            <span class="n">zero_copy_batch</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">result</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html
new file mode 100644
index 000000000..cd368cf71
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html
@@ -0,0 +1,172 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.ray_document_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.ray_document_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.ray_document_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">string</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.ray_basic_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="n">RayBasicDeduplicator</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;ray_document_deduplicator&#39;</span>
+
+
+<div class="viewcode-block" id="RayDocumentDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RayDocumentDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RayDocumentDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">backend</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ray_actor&#39;</span><span class="p">,</span>
+                 <span class="n">redis_address</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;redis://localhost:6379&#39;</span><span class="p">,</span>
+                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">ignore_non_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param backend: the backend for dedup, either &#39;ray_actor&#39; or &#39;redis&#39;</span>
+<span class="sd">        :param redis_address: the address of redis server</span>
+<span class="sd">        :param lowercase: Whether to convert sample text to lower case</span>
+<span class="sd">        :param ignore_non_character: Whether to ignore non-alphabet</span>
+<span class="sd">        characters, including whitespaces, digits, and punctuations</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+                         <span class="n">redis_address</span><span class="o">=</span><span class="n">redis_address</span><span class="p">,</span>
+                         <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                         <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;\s+|\d+|[</span><span class="si">{</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">string</span><span class="o">.</span><span class="n">punctuation</span><span class="p">)</span><span class="si">}</span><span class="s1">]&#39;</span>  <span class="c1"># noqa: W605</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_non_character</span> <span class="k">else</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="RayDocumentDeduplicator.calculate_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">(</span><span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">))</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html
new file mode 100644
index 000000000..90256b407
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html
@@ -0,0 +1,195 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.ray_image_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.ray_image_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.ray_image_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.ray_basic_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="n">RayBasicDeduplicator</span>
+
+<span class="n">imgdedup_methods</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;imgdedup_methods&#39;</span><span class="p">,</span> <span class="s1">&#39;imagededup.methods&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;ray_image_deduplicator&#39;</span>
+
+<span class="n">HASH_METHOD</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;phash&#39;</span><span class="p">,</span> <span class="s1">&#39;dhash&#39;</span><span class="p">,</span> <span class="s1">&#39;whash&#39;</span><span class="p">,</span> <span class="s1">&#39;ahash&#39;</span><span class="p">}</span>
+
+
+<div class="viewcode-block" id="get_hash_method">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_hash_method</span><span class="p">(</span><span class="n">method_name</span><span class="p">):</span>
+
+    <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;phash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">PHash</span><span class="p">,</span>
+        <span class="s1">&#39;dhash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">DHash</span><span class="p">,</span>
+        <span class="s1">&#39;whash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">WHash</span><span class="p">,</span>
+        <span class="s1">&#39;ahash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">AHash</span>
+    <span class="p">}</span>
+
+    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="RayImageDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RayImageDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching</span>
+<span class="sd">    of images between documents.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RayImageDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">backend</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ray_actor&#39;</span><span class="p">,</span>
+                 <span class="n">redis_address</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;redis://localhost:6379&#39;</span><span class="p">,</span>
+                 <span class="n">method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;phash&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization.</span>
+<span class="sd">        :param backend: the backend for dedup, either &#39;ray_actor&#39; or &#39;redis&#39;</span>
+<span class="sd">        :param redis_address: the address of redis server</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+                         <span class="n">redis_address</span><span class="o">=</span><span class="n">redis_address</span><span class="p">,</span>
+                         <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                         <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">HASH_METHOD</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of </span><span class="si">{</span><span class="n">HASH_METHOD</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hasher</span> <span class="o">=</span> <span class="n">get_hash_method</span><span class="p">(</span><span class="n">method</span><span class="p">)()</span></div>
+
+
+<div class="viewcode-block" id="RayImageDeduplicator.calculate_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="c1"># compute hash</span>
+        <span class="n">hash_value</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+            <span class="n">hash_value</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hasher</span><span class="o">.</span><span class="n">encode_image</span><span class="p">(</span>
+                <span class="n">image_array</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]))</span>
+
+        <span class="k">return</span> <span class="n">hash_value</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html
new file mode 100644
index 000000000..591629987
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html
@@ -0,0 +1,175 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.ray_video_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.ray_video_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.ray_video_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.ray_basic_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="n">RayBasicDeduplicator</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;ray_video_deduplicator&#39;</span>
+
+
+<div class="viewcode-block" id="RayVideoDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RayVideoDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching</span>
+<span class="sd">    of videos between documents.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RayVideoDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">backend</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ray_actor&#39;</span><span class="p">,</span>
+                 <span class="n">redis_address</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;redis://localhost:6379&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization.</span>
+<span class="sd">        :param backend: the backend for dedup, either &#39;ray_actor&#39; or &#39;redis&#39;</span>
+<span class="sd">        :param redis_address: the address of redis server</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+                         <span class="n">redis_address</span><span class="o">=</span><span class="n">redis_address</span><span class="p">,</span>
+                         <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                         <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayVideoDeduplicator.calculate_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+        <span class="c1"># compute hash</span>
+        <span class="n">md5_hash</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+            <span class="c1"># consider the multi stream of video in one container</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">demux</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;video&#39;</span><span class="p">:</span>
+                    <span class="n">md5_hash</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">bytes</span><span class="p">(</span><span class="n">packet</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">md5_hash</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/video_deduplicator.html b/_modules/data_juicer/ops/deduplicator/video_deduplicator.html
new file mode 100644
index 000000000..6670df222
--- /dev/null
+++ b/_modules/data_juicer/ops/deduplicator/video_deduplicator.html
@@ -0,0 +1,248 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.deduplicator.video_deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.video_deduplicator</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.deduplicator.video_deduplicator</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">defaultdict</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Set</span><span class="p">,</span> <span class="n">Tuple</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.document_deduplicator</span><span class="w"> </span><span class="kn">import</span> <span class="n">DocumentDeduplicator</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_deduplicator&#39;</span>
+
+
+<div class="viewcode-block" id="VideoDeduplicator">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching</span>
+<span class="sd">    of videos between documents.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoDeduplicator.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">consider_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization.</span>
+
+<span class="sd">        :param consider_text: whether to consider text hash together with video</span>
+<span class="sd">            hash when applying deduplication.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span> <span class="o">=</span> <span class="n">consider_text</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span> <span class="o">=</span> <span class="n">DocumentDeduplicator</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoDeduplicator.compute_hash">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># get hash of text first</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+            <span class="n">sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_dedup_op</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="c1"># compute hash</span>
+        <span class="n">md5_hash</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+            <span class="c1"># consider the multi stream of video in one container</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">demux</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;video&#39;</span><span class="p">:</span>
+                    <span class="n">md5_hash</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">bytes</span><span class="p">(</span><span class="n">packet</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">]</span> <span class="o">=</span> <span class="n">md5_hash</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoDeduplicator.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
+
+<span class="sd">        :param dataset: input dataset</span>
+<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
+<span class="sd">            open.</span>
+<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># no need to deduplicate because too few samples</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
+
+        <span class="n">dup_hashes</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># sample duplicate pairs</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+                <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+                <span class="n">hashes</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">],</span>
+                             <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
+                <span class="n">hashes</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">hashes</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">hash_val</span><span class="p">:</span>
+                    <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
+            <span class="n">dup_samples</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">hash2ids</span><span class="o">.</span><span class="n">items</span><span class="p">()),</span>
+                                 <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="mi">1</span><span class="p">]),</span>
+                                 <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">dup_hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span>
+                <span class="n">item</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dup_samples</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">item</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">1</span>
+            <span class="p">][:</span><span class="n">show_num</span><span class="p">])</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_filter_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">hashes</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
+                <span class="nb">hash</span> <span class="o">=</span> <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="nb">hash</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">videohash</span><span class="p">]</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hash</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">dup_hashes</span> \
+                    <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
+                <span class="c1"># tracer is open and not enough duplicate sample pairs</span>
+                <span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">hashes</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">hash</span><span class="p">)</span>
+                <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{</span><span class="n">hash_v</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">hash_v</span> <span class="ow">in</span> <span class="n">dup_hashes</span><span class="p">}</span> <span class="k">if</span> <span class="n">dup_hashes</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+            <span class="n">_filter_dup_helper</span><span class="p">,</span>
+            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">hashes</span><span class="o">=</span><span class="n">hashes</span><span class="p">),</span>
+            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>  <span class="c1"># num_proc=1</span>
+        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/alphanumeric_filter.html b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
new file mode 100644
index 000000000..eb9b335d3
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
@@ -0,0 +1,215 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.alphanumeric_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.alphanumeric_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_words_from_document</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;alphanumeric_filter&#39;</span>
+
+
+<div class="viewcode-block" id="AlphanumericFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;alphanumeric_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AlphanumericFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with alphabet/numeric ratio within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="AlphanumericFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tokenization: Whether to count the ratio of alphanumeric</span>
+<span class="sd">            to the total number of tokens. if tokenization=False, it</span>
+<span class="sd">            will count the ratio of alphanumeric to the total number of</span>
+<span class="sd">            characters.</span>
+<span class="sd">        :param min_ratio: The min filter ratio in alphanumeric op,</span>
+<span class="sd">            samples will be filtered if their alphabet/numeric ratio is</span>
+<span class="sd">            below this parameter.</span>
+<span class="sd">        :param max_ratio: The max filter ratio in alphanumeric op,</span>
+<span class="sd">            samples will be filtered if their alphabet/numeric ratio</span>
+<span class="sd">            exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">,</span>
+                <span class="n">return_model</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="AlphanumericFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="n">alpha_count</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                    <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">char</span><span class="p">:</span> <span class="mi">1</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalpha</span><span class="p">()</span> <span class="k">else</span> <span class="mi">0</span><span class="p">,</span> <span class="n">cur_text</span><span class="p">))</span>
+                <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+                <span class="n">token_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span>
+                    <span class="n">get_words_from_document</span><span class="p">(</span>
+                        <span class="n">cur_text</span><span class="p">,</span>
+                        <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">))</span>
+                <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">alpha_count</span> <span class="o">/</span> <span class="n">token_count</span><span class="p">)</span> <span class="k">if</span> <span class="n">token_count</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="n">alnum_count</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                    <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">char</span><span class="p">:</span> <span class="mi">1</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalnum</span><span class="p">()</span> <span class="k">else</span> <span class="mi">0</span><span class="p">,</span> <span class="n">cur_text</span><span class="p">))</span>
+                <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">alnum_count</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="AlphanumericFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">ratio_key</span> <span class="o">=</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> \
+            <span class="k">else</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">ratio_key</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span>
+                <span class="n">max_ratio</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span>
+                    <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">ratio_key</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/audio_duration_filter.html b/_modules/data_juicer/ops/filter/audio_duration_filter.html
new file mode 100644
index 000000000..b1fab39fd
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/audio_duration_filter.html
@@ -0,0 +1,211 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.audio_duration_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.audio_duration_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.audio_duration_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">librosa</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_audio</span><span class="p">,</span> <span class="n">load_data_with_context</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_AUDIOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;audio_duration_filter&#39;</span>
+
+
+<div class="viewcode-block" id="AudioDurationFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_AUDIOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AudioDurationFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose audios&#39; durations are within a specified range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AudioDurationFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_duration</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">max_duration</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_duration: The min audio duration to keep samples in seconds.</span>
+<span class="sd">            It&#39;s 0 by default.</span>
+<span class="sd">        :param max_duration: The max audio duration to keep samples in seconds.</span>
+<span class="sd">            It&#39;s sys.maxsize by default.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all audios. &#39;any&#39;: keep this sample if any audios meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all audios meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_duration</span> <span class="o">=</span> <span class="n">min_duration</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_duration</span> <span class="o">=</span> <span class="n">max_duration</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="AudioDurationFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no audio in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load audios</span>
+        <span class="n">loaded_audio_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">audios</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_audio_keys</span><span class="p">,</span> <span class="n">load_audio</span><span class="p">)</span>
+
+        <span class="n">audio_durations</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">audio_key</span><span class="p">:</span> <span class="n">librosa</span><span class="o">.</span><span class="n">get_duration</span><span class="p">(</span><span class="n">y</span><span class="o">=</span><span class="n">audio</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">sr</span><span class="o">=</span><span class="n">audio</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+            <span class="k">for</span> <span class="n">audio_key</span><span class="p">,</span> <span class="n">audio</span> <span class="ow">in</span> <span class="n">audios</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+        <span class="p">}</span>
+
+        <span class="c1"># get audio durations</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">audio_durations</span><span class="p">[</span><span class="n">audio_key</span><span class="p">]</span> <span class="k">for</span> <span class="n">audio_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="AudioDurationFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">audio_durations</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_duration</span> <span class="o">&lt;=</span> <span class="n">duration</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_duration</span>
+            <span class="k">for</span> <span class="n">duration</span> <span class="ow">in</span> <span class="n">audio_durations</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html b/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html
new file mode 100644
index 000000000..1c7bba64a
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html
@@ -0,0 +1,265 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.audio_nmf_snr_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.audio_nmf_snr_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">librosa</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">librosa.decompose</span><span class="w"> </span><span class="kn">import</span> <span class="n">decompose</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_audio</span><span class="p">,</span> <span class="n">load_data_with_context</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_AUDIOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;audio_nmf_snr_filter&#39;</span>
+
+
+<span class="c1"># run NMF to decompose the signal and noise from the input audio</span>
+<div class="viewcode-block" id="separate_signal_noise">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">separate_signal_noise</span><span class="p">(</span><span class="n">audio</span><span class="p">,</span> <span class="n">n_components</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">nmf_iter</span><span class="o">=</span><span class="mi">500</span><span class="p">):</span>
+    <span class="c1"># convert spectral domain using Short-time Fourier transform</span>
+    <span class="n">S</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">librosa</span><span class="o">.</span><span class="n">stft</span><span class="p">(</span><span class="n">audio</span><span class="p">))</span>
+
+    <span class="c1"># run NMF to decompose the audio</span>
+    <span class="n">W</span><span class="p">,</span> <span class="n">H</span> <span class="o">=</span> <span class="n">decompose</span><span class="p">(</span><span class="n">S</span><span class="p">,</span>
+                     <span class="n">n_components</span><span class="o">=</span><span class="n">n_components</span><span class="p">,</span>
+                     <span class="n">init</span><span class="o">=</span><span class="s1">&#39;random&#39;</span><span class="p">,</span>
+                     <span class="n">random_state</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                     <span class="n">max_iter</span><span class="o">=</span><span class="n">nmf_iter</span><span class="p">)</span>
+
+    <span class="c1"># get signal and noise</span>
+    <span class="n">signal</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">dot</span><span class="p">(</span><span class="n">W</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">:</span><span class="mi">1</span><span class="p">],</span> <span class="n">H</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">1</span><span class="p">,</span> <span class="p">:])</span>
+    <span class="n">noise</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">dot</span><span class="p">(</span><span class="n">W</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">:</span><span class="mi">2</span><span class="p">],</span> <span class="n">H</span><span class="p">[</span><span class="mi">1</span><span class="p">:</span><span class="mi">2</span><span class="p">,</span> <span class="p">:])</span>
+
+    <span class="c1"># convert back to time domain</span>
+    <span class="n">signal_audio</span> <span class="o">=</span> <span class="n">librosa</span><span class="o">.</span><span class="n">istft</span><span class="p">(</span><span class="n">signal</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="mi">1</span><span class="n">j</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">angle</span><span class="p">(</span><span class="n">S</span><span class="p">)))</span>
+    <span class="n">noise_audio</span> <span class="o">=</span> <span class="n">librosa</span><span class="o">.</span><span class="n">istft</span><span class="p">(</span><span class="n">noise</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="mi">1</span><span class="n">j</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">angle</span><span class="p">(</span><span class="n">S</span><span class="p">)))</span>
+
+    <span class="k">return</span> <span class="n">signal_audio</span><span class="p">,</span> <span class="n">noise_audio</span></div>
+
+
+
+<span class="c1"># compute the SNR of an audio with NMF algorithm</span>
+<div class="viewcode-block" id="compute_nmf_snr">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">compute_nmf_snr</span><span class="p">(</span><span class="n">audio_data</span><span class="p">,</span> <span class="n">nmf_iter</span><span class="o">=</span><span class="mi">500</span><span class="p">):</span>
+    <span class="c1"># separate the signal and noise parts from the original audio</span>
+    <span class="n">signal</span><span class="p">,</span> <span class="n">noise</span> <span class="o">=</span> <span class="n">separate_signal_noise</span><span class="p">(</span><span class="n">audio_data</span><span class="p">,</span>
+                                          <span class="n">n_components</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+                                          <span class="n">nmf_iter</span><span class="o">=</span><span class="n">nmf_iter</span><span class="p">)</span>
+
+    <span class="c1"># compute the power of signal and noise</span>
+    <span class="n">power_signal</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">signal</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span>
+    <span class="n">power_noise</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">noise</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span>
+
+    <span class="c1"># compute SNR in dB</span>
+    <span class="k">if</span> <span class="n">power_noise</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">snr</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span><span class="o">.</span><span class="n">max</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">snr</span> <span class="o">=</span> <span class="mi">10</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">log10</span><span class="p">(</span><span class="n">power_signal</span> <span class="o">/</span> <span class="n">power_noise</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">snr</span></div>
+
+
+
+<div class="viewcode-block" id="AudioNMFSNRFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_AUDIOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AudioNMFSNRFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose audios&#39; SNRs (computed based on NMF) are within</span>
+<span class="sd">    a specified range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AudioNMFSNRFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_snr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">max_snr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">nmf_iter_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">500</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_snr: The min audio SNR to keep samples in dB. It&#39;s 0 by</span>
+<span class="sd">            default.</span>
+<span class="sd">        :param max_snr: The max audio SNR to keep samples in dB. It&#39;s</span>
+<span class="sd">            sys.maxsize by default.</span>
+<span class="sd">        :param nmf_iter_num: The max number of iterations to run NMF. It&#39;s 500</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all audios. &#39;any&#39;: keep this sample if any audios meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all audios meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_snr</span> <span class="o">=</span> <span class="n">min_snr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_snr</span> <span class="o">=</span> <span class="n">max_snr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">nmf_iter_num</span> <span class="o">=</span> <span class="n">nmf_iter_num</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="AudioNMFSNRFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no audio in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load audios</span>
+        <span class="n">loaded_audio_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">audios</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_audio_keys</span><span class="p">,</span> <span class="n">load_audio</span><span class="p">)</span>
+
+        <span class="n">audio_snrs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">audio_key</span><span class="p">:</span> <span class="n">compute_nmf_snr</span><span class="p">(</span><span class="n">audio</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="bp">self</span><span class="o">.</span><span class="n">nmf_iter_num</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">audio_key</span><span class="p">,</span> <span class="n">audio</span> <span class="ow">in</span> <span class="n">audios</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+        <span class="p">}</span>
+
+        <span class="c1"># get audio SNRs</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">audio_snrs</span><span class="p">[</span><span class="n">audio_key</span><span class="p">]</span> <span class="k">for</span> <span class="n">audio_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="AudioNMFSNRFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">audio_snrs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">min_snr</span> <span class="o">&lt;=</span> <span class="n">snr</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_snr</span> <span class="k">for</span> <span class="n">snr</span> <span class="ow">in</span> <span class="n">audio_snrs</span><span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/audio_size_filter.html b/_modules/data_juicer/ops/filter/audio_size_filter.html
new file mode 100644
index 000000000..c9d78d04f
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/audio_size_filter.html
@@ -0,0 +1,195 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.audio_size_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.audio_size_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.audio_size_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_file_size</span><span class="p">,</span> <span class="n">size_to_bytes</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+
+<div class="viewcode-block" id="AudioSizeFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;audio_size_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AudioSizeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose audio size (in bytes/kb/MB/...) within a</span>
+<span class="sd">    specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AudioSizeFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;0&#39;</span><span class="p">,</span>
+                 <span class="n">max_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;1TB&#39;</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_size: The min audio size to keep samples.  set to be &quot;0&quot; by</span>
+<span class="sd">            default for no size constraint</span>
+<span class="sd">        :param max_size: The max audio size to keep samples.  set to be</span>
+<span class="sd">            &quot;1Tb&quot; by default, an approximate for un-limited case</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all audios. &#39;any&#39;: keep this sample if any audios meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all audios meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_size</span> <span class="o">=</span> <span class="n">size_to_bytes</span><span class="p">(</span><span class="n">min_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span> <span class="o">=</span> <span class="n">size_to_bytes</span><span class="p">(</span><span class="n">max_size</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="AudioSizeFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no audio in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># for size calculation, no need to load audios into memory</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">get_file_size</span><span class="p">(</span><span class="n">aud_path</span><span class="p">)</span> <span class="k">for</span> <span class="n">aud_path</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="AudioSizeFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">audio_sizes</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_size</span> <span class="o">&lt;=</span> <span class="n">audio_size</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span>
+            <span class="k">for</span> <span class="n">audio_size</span> <span class="ow">in</span> <span class="n">audio_sizes</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/average_line_length_filter.html b/_modules/data_juicer/ops/filter/average_line_length_filter.html
new file mode 100644
index 000000000..40252f519
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/average_line_length_filter.html
@@ -0,0 +1,193 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.average_line_length_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.average_line_length_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_LINES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;average_line_length_filter&#39;</span>
+
+
+<div class="viewcode-block" id="AverageLineLengthFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AverageLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with average line length within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="AverageLineLengthFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_len: The min filter length in this op, samples will</span>
+<span class="sd">            be filtered if their average line length is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_len: The max filter length in this op, samples will</span>
+<span class="sd">            be filtered if their average line length exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
+
+
+<div class="viewcode-block" id="AverageLineLengthFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">context_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">lines</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">lines</span> <span class="o">=</span> <span class="n">cur_text</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">lines</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span><span class="p">]</span> <span class="o">=</span> \
+                <span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="AverageLineLengthFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span><span class="p">]</span> <span class="o">&lt;=</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/character_repetition_filter.html b/_modules/data_juicer/ops/filter/character_repetition_filter.html
new file mode 100644
index 000000000..6415832e8
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/character_repetition_filter.html
@@ -0,0 +1,213 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.character_repetition_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.character_repetition_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+
+<div class="viewcode-block" id="CharacterRepetitionFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;character_repetition_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CharacterRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with char-level n-gram repetition ratio within a</span>
+<span class="sd">    specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CharacterRepetitionFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param rep_len: Repetition length for char-level n-gram.</span>
+<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their char-level n-gram repetition ratio is</span>
+<span class="sd">            below this parameter.</span>
+<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their char-level n-gram repetition ratio</span>
+<span class="sd">            exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">rep_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span></div>
+
+
+<div class="viewcode-block" id="CharacterRepetitionFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="n">char_ngrams</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">cur_text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">]</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="p">]</span>
+            <span class="n">freq_char_ngrams</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">char_ngram</span> <span class="ow">in</span> <span class="n">char_ngrams</span><span class="p">:</span>
+                <span class="n">freq_char_ngrams</span><span class="p">[</span><span class="n">char_ngram</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">freq_char_ngrams</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">char_ngram</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">continue</span>
+
+            <span class="n">freq_char_ngrams</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="o">.</span><span class="n">values</span><span class="p">()),</span>
+                                      <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">num_no_rep_char_ngrams</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span>
+                <span class="p">[</span><span class="n">el</span> <span class="k">for</span> <span class="n">el</span> <span class="ow">in</span> <span class="n">freq_char_ngrams</span> <span class="k">if</span> <span class="n">el</span> <span class="o">==</span> <span class="mi">1</span><span class="p">])</span>
+            <span class="n">num_rep_char_ngrams</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span>
+                <span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">))),</span>
+                <span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">-</span> <span class="n">num_no_rep_char_ngrams</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="nb">sum</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">[:</span><span class="n">num_rep_char_ngrams</span><span class="p">])</span> <span class="o">/</span>
+                <span class="nb">sum</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">))</span> <span class="k">if</span> <span class="nb">sum</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="CharacterRepetitionFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span>
+                <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/flagged_words_filter.html b/_modules/data_juicer/ops/filter/flagged_words_filter.html
new file mode 100644
index 000000000..bd521c3f8
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/flagged_words_filter.html
@@ -0,0 +1,253 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.flagged_words_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.flagged_words_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">...utils.asset_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">ASSET_DIR</span><span class="p">,</span> <span class="n">load_words_asset</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
+                      <span class="n">words_refinement</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_WORDS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;flagged_words_filter&#39;</span>
+
+
+<div class="viewcode-block" id="FlaggedWordFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">FlaggedWordFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with flagged-word ratio less than a specific max</span>
+<span class="sd">    value.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="FlaggedWordFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.045</span><span class="p">,</span>
+                 <span class="n">flagged_words_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">ASSET_DIR</span><span class="p">,</span>
+                 <span class="n">use_words_aug</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">words_aug_group_sizes</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+                 <span class="n">words_aug_join_char</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: Consider flagged words in what language. If lang ==</span>
+<span class="sd">            &quot;all&quot;, we will adopt the one merged from all the available</span>
+<span class="sd">            languages</span>
+<span class="sd">        :param tokenization: Whether to use model to tokenize documents</span>
+<span class="sd">        :param max_ratio: The max filter ratio in this op.</span>
+<span class="sd">        :param flagged_words_dir: The directory storing the</span>
+<span class="sd">            flagged_words file(s) whose name includes &quot;flagged_words&quot;</span>
+<span class="sd">            and in json format</span>
+<span class="sd">        :param use_words_aug: Whether to augment words, especially for</span>
+<span class="sd">            Chinese and Vietnamese</span>
+<span class="sd">        :param words_aug_group_sizes: The group size of words to augment</span>
+<span class="sd">        :param words_aug_join_char: The join char between words to</span>
+<span class="sd">            augment</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span> <span class="o">=</span> <span class="n">use_words_aug</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span> <span class="o">=</span> <span class="n">words_aug_group_sizes</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span> <span class="o">=</span> <span class="n">words_aug_join_char</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span> <span class="o">=</span> <span class="n">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="o">=</span><span class="n">flagged_words_dir</span><span class="p">,</span>
+                                              <span class="n">words_type</span><span class="o">=</span><span class="s1">&#39;flagged_words&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="s1">&#39;all&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">val</span> <span class="k">for</span> <span class="n">vals</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">vals</span>
+            <span class="p">]</span>
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                           <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="FlaggedWordFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                    <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">],</span>
+                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span>
+                    <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+            <span class="c1"># try to get refined words from context</span>
+            <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">&#39;</span> \
+                                <span class="s1">&#39;-True-SPECIAL_CHARS-&#39;</span> \
+                                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="si">}</span><span class="s1">-&#39;</span> \
+                                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="si">}</span><span class="s1">-&#39;</span> \
+                                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="si">}</span><span class="s1">&#39;</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span>
+                    <span class="n">words</span><span class="p">,</span>
+                    <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span>
+                    <span class="n">use_words_aug</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="p">,</span>
+                    <span class="n">words_aug_group_sizes</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="p">,</span>
+                    <span class="n">words_aug_join_char</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+
+            <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="p">(</span><span class="nb">len</span><span class="p">([</span>
+                <span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span> <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span>
+            <span class="p">])</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+            <span class="k">if</span> <span class="n">flagged_words_ratio</span> <span class="o">&gt;</span> <span class="mf">1.0</span><span class="p">:</span>
+                <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="mf">1.0</span>
+
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span>
+                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="n">flagged_words_ratio</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="FlaggedWordFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">return</span> <span class="nb">list</span><span class="p">(</span>
+            <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span>
+                <span class="n">max_ratio</span><span class="p">,</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span>
+            <span class="p">))</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_aesthetics_filter.html b/_modules/data_juicer/ops/filter/image_aesthetics_filter.html
new file mode 100644
index 000000000..6f362d785
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_aesthetics_filter.html
@@ -0,0 +1,243 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_aesthetics_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_aesthetics_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_aesthetics_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">...utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_aesthetics_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageAestheticsFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageAestheticsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with aesthetics scores within a specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImageAestheticsFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_scorer_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_scorer_model: Huggingface model name for the aesthetics</span>
+<span class="sd">            predictor. By default, we will use</span>
+<span class="sd">            &#39;shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE&#39;,</span>
+<span class="sd">            refer to pypi.org/project/simple-aesthetics-predictor</span>
+<span class="sd">        :param min_score: Min score for the predicted aesthetics in an image.</span>
+<span class="sd">        :param max_score: Max score for the predicted aesthetics in an image.</span>
+<span class="sd">        :param any_or_all: Keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: Extra positional arguments.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">hf_scorer_model</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">hf_scorer_model</span> <span class="o">=</span> \
+                <span class="s1">&#39;shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;simple_aesthetics&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_scorer_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="c1"># the original score predicted by laion-ai&#39;s scorer is within [0, 10]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">need_normalized_by_ten</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;shunk031/aesthetics-predictor&#39;</span>
+                                       <span class="ow">in</span> <span class="n">hf_scorer_model</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageAestheticsFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="c1"># compute aesthetics_scores</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="nb">list</span><span class="p">(</span><span class="n">images</span><span class="o">.</span><span class="n">values</span><span class="p">()),</span>
+                           <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">need_normalized_by_ten</span><span class="p">:</span>
+            <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span> <span class="o">/</span> <span class="mf">10.0</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+
+        <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">aesthetics_score</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">aesthetics_score</span> <span class="ow">in</span> <span class="n">aesthetics_scores</span>
+        <span class="p">]</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;aesthetics_scores: </span><span class="si">{</span><span class="n">aesthetics_scores</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span><span class="p">]</span> <span class="o">=</span>\
+            <span class="n">aesthetics_scores</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageAestheticsFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">sample</span><span class="p">)[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">aesthetics_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">aesthetics_score</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">aesthetics_score</span> <span class="ow">in</span> <span class="n">aesthetics_scores</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html b/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html
new file mode 100644
index 000000000..ee9b5d3a4
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html
@@ -0,0 +1,215 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_aspect_ratio_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_aspect_ratio_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_aspect_ratio_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+
+<div class="viewcode-block" id="ImageAspectRatioFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_aspect_ratio_filter&#39;</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_aspect_ratio_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageAspectRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with image aspect ratio within a specific range.</span>
+<span class="sd">    AspectRatio = W / H.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageAspectRatioFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.333</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">3.0</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_ratio: The min aspect ratio to keep samples.</span>
+<span class="sd">        :param max_ratio: The max aspect ratio to keep samples.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageAspectRatioFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">image_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">aspect_ratios</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># there is no image in this sample</span>
+            <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">image_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">loaded_image_keys</span><span class="p">:</span>
+                <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">aspect_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># load images</span>
+            <span class="n">samples</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                     <span class="n">loaded_image_keys</span><span class="p">,</span>
+                                                     <span class="n">load_image</span><span class="p">)</span>
+
+            <span class="c1"># compute aspect ratios for each image with W/H</span>
+            <span class="n">aspect_ratios</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="n">key</span><span class="p">:</span> <span class="p">(</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">width</span> <span class="o">/</span> <span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">height</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span>
+            <span class="p">}</span>
+            <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">aspect_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">aspect_ratios</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+            <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="ImageAspectRatioFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="n">values</span><span class="p">):</span>
+            <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">values</span>
+            <span class="p">])</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+
+            <span class="c1"># different strategies</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="n">process_single</span><span class="p">(</span><span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">aspect_ratios</span><span class="p">]),</span>
+            <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span>
+        <span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_face_count_filter.html b/_modules/data_juicer/ops/filter/image_face_count_filter.html
new file mode 100644
index 000000000..06cd9a2b1
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_face_count_filter.html
@@ -0,0 +1,245 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_face_count_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_face_count_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_face_count_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">detect_faces</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_face_count_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageFaceCountFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageFaceCountFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with the number of faces within a specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;scaleFactor&#39;</span><span class="p">:</span> <span class="mf">1.1</span><span class="p">,</span>
+        <span class="s1">&#39;minNeighbors&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;minSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="s1">&#39;maxSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="ImageFaceCountFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">min_face_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_face_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param cv_classifier: OpenCV classifier path for face detection.</span>
+<span class="sd">            By default, we will use &#39;haarcascade_frontalface_alt.xml&#39;.</span>
+<span class="sd">        :param min_face_count: Minimum number of faces required for samples.</span>
+<span class="sd">        :param max_face_count: Maximum number of faces required for samples.</span>
+<span class="sd">        :param any_or_all: Keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: Extra positional arguments.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">cv_classifier</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">cv_classifier</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">haarcascades</span><span class="p">,</span>
+                                         <span class="s1">&#39;haarcascade_frontalface_alt.xml&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_face_count</span> <span class="o">=</span> <span class="n">min_face_count</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_face_count</span> <span class="o">=</span> <span class="n">max_face_count</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_default_kwargs</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;opencv_classifier&#39;</span><span class="p">,</span>
+                                       <span class="n">model_path</span><span class="o">=</span><span class="n">cv_classifier</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageFaceCountFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_counts</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+
+        <span class="c1"># count the number of detected faces in each image</span>
+        <span class="n">face_counts</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">image</span> <span class="ow">in</span> <span class="n">images</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="n">dets</span> <span class="o">=</span> <span class="n">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">)</span>
+                <span class="n">face_counts</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">dets</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;face counts: </span><span class="si">{</span><span class="n">face_counts</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">exception</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_counts</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">face_counts</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageFaceCountFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">face_counts</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_counts</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">face_counts</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_face_count</span> <span class="o">&lt;=</span> <span class="n">face_count</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_face_count</span>
+            <span class="k">for</span> <span class="n">face_count</span> <span class="ow">in</span> <span class="n">face_counts</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_face_ratio_filter.html b/_modules/data_juicer/ops/filter/image_face_ratio_filter.html
new file mode 100644
index 000000000..bc20e55c6
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_face_ratio_filter.html
@@ -0,0 +1,249 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_face_ratio_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_face_ratio_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_face_ratio_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">detect_faces</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_face_ratio_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageFaceRatioFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageFaceRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with face area ratios within a specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;scaleFactor&#39;</span><span class="p">:</span> <span class="mf">1.1</span><span class="p">,</span>
+        <span class="s1">&#39;minNeighbors&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;minSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="s1">&#39;maxSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="ImageFaceRatioFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.4</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param cv_classifier: OpenCV classifier path for face detection.</span>
+<span class="sd">            By default, we will use &#39;haarcascade_frontalface_alt.xml&#39;.</span>
+<span class="sd">        :param min_ratio: Min ratio for the largest face area in an image.</span>
+<span class="sd">        :param max_ratio: Max ratio for the largest face area in an image.</span>
+<span class="sd">        :param any_or_all: Keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: Extra positional arguments.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">cv_classifier</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">cv_classifier</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">haarcascades</span><span class="p">,</span>
+                                         <span class="s1">&#39;haarcascade_frontalface_alt.xml&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_default_kwargs</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;opencv_classifier&#39;</span><span class="p">,</span>
+                                       <span class="n">model_path</span><span class="o">=</span><span class="n">cv_classifier</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageFaceRatioFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+
+        <span class="c1"># detect faces</span>
+        <span class="n">face_detections</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">image</span> <span class="ow">in</span> <span class="n">images</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">face_detections</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span>
+                                                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;detections: </span><span class="si">{</span><span class="n">face_detections</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="c1"># compute face area ratios for each image considering the largest face</span>
+        <span class="n">face_area_ratios</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">dets</span> <span class="ow">in</span> <span class="n">face_detections</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">image_area</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">width</span> <span class="o">*</span> <span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">height</span>
+            <span class="n">face_area_ratios</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">max</span><span class="p">([</span><span class="n">w</span> <span class="o">*</span> <span class="n">h</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span> <span class="ow">in</span> <span class="n">dets</span><span class="p">],</span>
+                                        <span class="n">default</span><span class="o">=</span><span class="mf">0.0</span><span class="p">)</span> <span class="o">/</span> <span class="n">image_area</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;ratios: </span><span class="si">{</span><span class="n">face_area_ratios</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">face_area_ratios</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageFaceRatioFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">face_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">face_ratios</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">face_ratio</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span>
+            <span class="k">for</span> <span class="n">face_ratio</span> <span class="ow">in</span> <span class="n">face_ratios</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_nsfw_filter.html b/_modules/data_juicer/ops/filter/image_nsfw_filter.html
new file mode 100644
index 000000000..ad37077e0
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_nsfw_filter.html
@@ -0,0 +1,219 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_nsfw_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_nsfw_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_nsfw_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_nsfw_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageNSFWFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageNSFWFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples whose images have low nsfw scores.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImageNSFWFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_nsfw_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Falconsai/nsfw_image_detection&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">score_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_nsfw_model: nsfw detection model name on huggingface.</span>
+<span class="sd">        :param score_threshold: the nsfw score threshold for samples.</span>
+<span class="sd">            range from 0 to 1. Samples with nsfw score less than this threshold</span>
+<span class="sd">            will be kept.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_threshold</span> <span class="o">=</span> <span class="n">score_threshold</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_nsfw_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageNSFWFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">images</span> <span class="o">=</span> <span class="p">[</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span><span class="p">]</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">images</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+        <span class="n">nsfw_scores</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="nb">float</span><span class="p">(</span><span class="n">scores</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="k">for</span> <span class="n">scores</span> <span class="ow">in</span> <span class="n">torch</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="p">]</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">nsfw_scores</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageNSFWFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">itm_score</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">score_threshold</span> <span class="k">for</span> <span class="n">itm_score</span> <span class="ow">in</span> <span class="n">itm_scores</span><span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html b/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html
new file mode 100644
index 000000000..8a6b06e0e
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html
@@ -0,0 +1,229 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_pair_similarity_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_pair_similarity_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_pair_similarity_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">jsonargparse.typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">ClosedUnitInterval</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_pair_similarity_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImagePairSimilarityFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImagePairSimilarityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep image pairs with similarities between images</span>
+<span class="sd">    within a specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImagePairSimilarityFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_clip</span><span class="o">=</span><span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_clip: clip model name on huggingface to compute</span>
+<span class="sd">            the similarity between image and text.</span>
+<span class="sd">        :param min_score: The min similarity to keep samples.</span>
+<span class="sd">        :param max_score: The max similarity to keep samples.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_clip</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImagePairSimilarityFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_pair_similarity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span>
+                <span class="ow">or</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">])</span> <span class="o">==</span> <span class="mi">2</span>
+                <span class="ow">or</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">][</span><span class="mi">1</span><span class="p">]):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Each sample must include two images.&#39;</span><span class="p">)</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">similarity</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">image_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">temp_key</span> <span class="ow">in</span> <span class="n">images</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+            <span class="n">image_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">images</span><span class="p">[</span><span class="n">temp_key</span><span class="p">])</span>
+        <span class="n">image_tensors</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">image_processor</span><span class="p">(</span>
+            <span class="n">image_list</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)[</span><span class="s1">&#39;pixel_values&#39;</span><span class="p">]</span>
+        <span class="n">image1_batch_feature</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">get_image_features</span><span class="p">(</span>
+            <span class="n">image_tensors</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+        <span class="n">image2_batch_feature</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">get_image_features</span><span class="p">(</span>
+            <span class="n">image_tensors</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+
+        <span class="n">similarity</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cosine_similarity</span><span class="p">(</span><span class="n">image1_batch_feature</span><span class="p">,</span>
+                                             <span class="n">image2_batch_feature</span><span class="p">,</span>
+                                             <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_pair_similarity</span><span class="p">]</span> <span class="o">=</span> <span class="n">similarity</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImagePairSimilarityFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_pair_similarity</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">similarity</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">sim_value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">sim_value</span> <span class="ow">in</span> <span class="n">similarity</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_shape_filter.html b/_modules/data_juicer/ops/filter/image_shape_filter.html
new file mode 100644
index 000000000..b85394bfa
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_shape_filter.html
@@ -0,0 +1,217 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_shape_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_shape_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_shape_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+
+<div class="viewcode-block" id="ImageShapeFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_shape_filter&#39;</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_shape_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageShapeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with image shape (w, h) within specific ranges.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageShapeFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">min_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_width: The min width to keep samples.</span>
+<span class="sd">        :param max_width: The max width to keep samples.</span>
+<span class="sd">        :param min_height: The min height to keep samples.</span>
+<span class="sd">        :param max_height: The max height to keep samples.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">=</span> <span class="n">min_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span> <span class="o">=</span> <span class="n">max_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">=</span> <span class="n">min_height</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span> <span class="o">=</span> <span class="n">max_height</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageShapeFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> \
+                <span class="ow">and</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_height</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_height</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="c1"># get width and height for each image</span>
+        <span class="n">whs</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">(</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">width</span><span class="p">,</span> <span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">height</span><span class="p">)</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span><span class="p">}</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">whs</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+        <span class="p">]</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_height</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">whs</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageShapeFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">ws</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span><span class="p">]</span>
+        <span class="n">hs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_height</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">ws</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">&lt;=</span> <span class="n">w</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span>
+            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">&lt;=</span> <span class="n">h</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span>
+            <span class="k">for</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">ws</span><span class="p">,</span> <span class="n">hs</span><span class="p">)</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_size_filter.html b/_modules/data_juicer/ops/filter/image_size_filter.html
new file mode 100644
index 000000000..65cea07ae
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_size_filter.html
@@ -0,0 +1,197 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_size_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_size_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_size_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_file_size</span><span class="p">,</span> <span class="n">size_to_bytes</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+
+<div class="viewcode-block" id="ImageSizeFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_size_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageSizeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose image size (in Bytes/KB/MB/...) within a</span>
+<span class="sd">    specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageSizeFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;0&#39;</span><span class="p">,</span>
+                 <span class="n">max_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;1TB&#39;</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_size: The min image size to keep samples.  set to be &quot;0&quot; by</span>
+<span class="sd">            default for no size constraint</span>
+<span class="sd">        :param max_size: The max image size to keep samples.  set to be</span>
+<span class="sd">            &quot;1TB&quot; by default, an approximate for un-limited case</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_size</span> <span class="o">=</span> <span class="n">size_to_bytes</span><span class="p">(</span><span class="n">min_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span> <span class="o">=</span> <span class="n">size_to_bytes</span><span class="p">(</span><span class="n">max_size</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageSizeFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># for size calculation, no need to load images into memory</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">get_file_size</span><span class="p">(</span><span class="n">img_path</span><span class="p">)</span> <span class="k">for</span> <span class="n">img_path</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageSizeFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">image_sizes</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_size</span> <span class="o">&lt;=</span> <span class="n">image_size</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span>
+            <span class="k">for</span> <span class="n">image_size</span> <span class="ow">in</span> <span class="n">image_sizes</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_text_matching_filter.html b/_modules/data_juicer/ops/filter/image_text_matching_filter.html
new file mode 100644
index 000000000..a6c15a673
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_text_matching_filter.html
@@ -0,0 +1,273 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_text_matching_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_text_matching_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_text_matching_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">,</span> <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_text_matching_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageTextMatchingFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageTextMatchingFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples those matching score between image and text</span>
+<span class="sd">    within a specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImageTextMatchingFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_blip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip-itm-base-coco&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.003</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_blip: blip model name on huggingface to compute</span>
+<span class="sd">            the matching score between image and text.</span>
+<span class="sd">        :param min_score: The min matching score to keep samples.</span>
+<span class="sd">        :param max_score: The max matching score to keep samples.</span>
+<span class="sd">        :param horizontal_flip: Flip image horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: Flip image vertically (top to bottom).</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param reduce_mode: reduce mode when one text corresponds to</span>
+<span class="sd">            multiple images in a chunk.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_blip</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span></div>
+
+
+<div class="viewcode-block" id="ImageTextMatchingFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                    <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">matching_scores</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="n">count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">)</span>
+
+            <span class="c1"># no image or no text</span>
+            <span class="k">if</span> <span class="n">count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_chunk</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+                <span class="n">image_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">count</span><span class="p">]:</span>
+                    <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="n">image_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">text_chunk</span><span class="p">,</span>
+                                   <span class="n">images</span><span class="o">=</span><span class="n">image_chunk</span><span class="p">,</span>
+                                   <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                                   <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                   <span class="n">max_length</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span>
+                                   <span class="n">max_position_embeddings</span><span class="p">,</span>
+                                   <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+                <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">itm_score</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+                    <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)[:,</span> <span class="mi">1</span><span class="p">]</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">chunk_itm_score</span> <span class="o">=</span> <span class="n">itm_scores</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">chunk_itm_score</span> <span class="o">=</span> <span class="n">itm_scores</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">chunk_itm_score</span> <span class="o">=</span> <span class="n">itm_scores</span><span class="o">.</span><span class="n">min</span><span class="p">()</span>
+
+                <span class="n">matching_scores</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">chunk_itm_score</span><span class="p">))</span>
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">count</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">matching_scores</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageTextMatchingFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">itm_score</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">itm_score</span> <span class="ow">in</span> <span class="n">itm_scores</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_text_similarity_filter.html b/_modules/data_juicer/ops/filter/image_text_similarity_filter.html
new file mode 100644
index 000000000..9567e8ea8
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_text_similarity_filter.html
@@ -0,0 +1,271 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_text_similarity_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_text_similarity_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_text_similarity_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">,</span> <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_text_similarity_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageTextSimilarityFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageTextSimilarityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples those similarities between image and text</span>
+<span class="sd">    within a specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageTextSimilarityFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_clip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_clip: clip model name on huggingface to compute</span>
+<span class="sd">            the similarity between image and text.</span>
+<span class="sd">        :param min_score: The min similarity to keep samples.</span>
+<span class="sd">        :param max_score: The max similarity to keep samples.</span>
+<span class="sd">        :param horizontal_flip: Flip image horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: Flip image vertically (top to bottom).</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param reduce_mode: reduce mode when one text corresponds to</span>
+<span class="sd">            multiple images in a chunk.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_clip</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span></div>
+
+
+<div class="viewcode-block" id="ImageTextSimilarityFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">similarity</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="n">count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">)</span>
+
+            <span class="c1"># no image or no text</span>
+            <span class="k">if</span> <span class="n">count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_chunk</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+                <span class="n">image_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">count</span><span class="p">]:</span>
+                    <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="n">image_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">text_chunk</span><span class="p">,</span>
+                                   <span class="n">images</span><span class="o">=</span><span class="n">image_chunk</span><span class="p">,</span>
+                                   <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                                   <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                   <span class="n">max_length</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span>
+                                   <span class="n">max_position_embeddings</span><span class="p">,</span>
+                                   <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+                <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                <span class="n">chunk_logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits_per_text</span> <span class="o">/</span> <span class="mf">100.0</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">min</span><span class="p">()</span>
+
+                <span class="n">similarity</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">chunk_similarity</span><span class="p">))</span>
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">count</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span><span class="p">]</span> <span class="o">=</span> <span class="n">similarity</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageTextSimilarityFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">similarity</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">sim_value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">sim_value</span> <span class="ow">in</span> <span class="n">similarity</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/image_watermark_filter.html b/_modules/data_juicer/ops/filter/image_watermark_filter.html
new file mode 100644
index 000000000..1c140b481
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/image_watermark_filter.html
@@ -0,0 +1,223 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.image_watermark_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.image_watermark_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.image_watermark_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_watermark_filter&#39;</span>
+
+
+<div class="viewcode-block" id="ImageWatermarkFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageWatermarkFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Filter to keep samples whose images have no watermark with high</span>
+<span class="sd">        probability.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImageWatermarkFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_watermark_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;amrul-hzz/watermark_detector&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">prob_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_watermark_model: watermark detection model name on</span>
+<span class="sd">            huggingface.</span>
+<span class="sd">        :param prob_threshold: the predicted watermark probability threshold</span>
+<span class="sd">            for samples. range from 0 to 1. Samples with watermark probability</span>
+<span class="sd">            less than this threshold will be kept.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prob_threshold</span> <span class="o">=</span> <span class="n">prob_threshold</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_watermark_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageWatermarkFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">images</span> <span class="o">=</span> <span class="p">[</span><span class="n">images</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">images</span><span class="p">]</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">images</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+        <span class="n">watermark_probs</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="nb">float</span><span class="p">(</span><span class="n">probs</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="k">for</span> <span class="n">probs</span> <span class="ow">in</span> <span class="n">torch</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="p">]</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span><span class="p">]</span> <span class="o">=</span> <span class="n">watermark_probs</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="ImageWatermarkFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">itm_probs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_probs</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">itm_prob</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">prob_threshold</span> <span class="k">for</span> <span class="n">itm_prob</span> <span class="ow">in</span> <span class="n">itm_probs</span><span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/language_id_score_filter.html b/_modules/data_juicer/ops/filter/language_id_score_filter.html
new file mode 100644
index 000000000..b47803428
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/language_id_score_filter.html
@@ -0,0 +1,196 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.language_id_score_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.language_id_score_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">fasttext</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;fasttext&#39;</span><span class="p">,</span> <span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;language_id_score_filter&#39;</span>
+
+
+<div class="viewcode-block" id="LanguageIDScoreFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">LanguageIDScoreFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples in a specific language with confidence score</span>
+<span class="sd">    larger than a specific min value.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="LanguageIDScoreFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: Samples in which languages to keep.</span>
+<span class="sd">        :param min_score: The min language identification confidence</span>
+<span class="sd">            scores of samples to keep.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">lang</span><span class="p">:</span>
+            <span class="c1"># lang is [], &#39;&#39; or None</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="c1"># lang is a single language string</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="p">[</span><span class="n">lang</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># lang is a list of multiple languages</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;fasttext&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="LanguageIDScoreFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span>
+                <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> <span class="ow">and</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span>
+        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">ft_model</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="s1">&#39;Model not loaded. Please retry later.&#39;</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
+        <span class="n">pred</span> <span class="o">=</span> <span class="n">ft_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">lang_id</span> <span class="o">=</span> <span class="n">pred</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;__label__&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+        <span class="n">lang_score</span> <span class="o">=</span> <span class="n">pred</span><span class="p">[</span><span class="mi">1</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span> <span class="o">=</span> <span class="n">lang_id</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">lang_score</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="LanguageIDScoreFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> \
+                   <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">&gt;=</span> \
+                   <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
new file mode 100644
index 000000000..4a2fc46a6
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
@@ -0,0 +1,194 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.maximum_line_length_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.maximum_line_length_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_LINES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;maximum_line_length_filter&#39;</span>
+
+
+<div class="viewcode-block" id="MaximumLineLengthFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">MaximumLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with maximum line length within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="MaximumLineLengthFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_len: The min filter length in this op, samples will</span>
+<span class="sd">            be filtered if their maximum line length is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_len: The max filter length in this op, samples will</span>
+<span class="sd">            be filtered if their maximum line length exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
+
+
+<div class="viewcode-block" id="MaximumLineLengthFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">context_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">lines</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">lines</span> <span class="o">=</span> <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">lines</span>
+            <span class="n">line_lengths</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="nb">len</span><span class="p">,</span> <span class="n">lines</span><span class="p">))</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span><span class="p">]</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span>
+                <span class="n">line_lengths</span><span class="p">)</span> <span class="k">if</span> <span class="n">line_lengths</span> <span class="k">else</span> <span class="mi">0</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="MaximumLineLengthFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span><span class="p">]</span> <span class="o">&lt;=</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/perplexity_filter.html b/_modules/data_juicer/ops/filter/perplexity_filter.html
new file mode 100644
index 000000000..5b1da78d3
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/perplexity_filter.html
@@ -0,0 +1,202 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.perplexity_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.perplexity_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_words_from_document</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_WORDS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;perplexity_filter&#39;</span>
+
+
+<div class="viewcode-block" id="PerplexityFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PerplexityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with perplexity score less than a specific max</span>
+<span class="sd">    value.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="PerplexityFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">max_ppl</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1500</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: Compute perplexity for samples in which language.</span>
+<span class="sd">        :param max_ppl: The max filter perplexity in this op, samples</span>
+<span class="sd">            will be filtered if their perplexity exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span> <span class="o">=</span> <span class="n">max_ppl</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                          <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;kenlm&#39;</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="PerplexityFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="c1"># tokenization</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                    <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">],</span>
+                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span>
+                    <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
+            <span class="c1"># compute perplexity</span>
+            <span class="n">logits</span><span class="p">,</span> <span class="n">length</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span>
+            <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">splitlines</span><span class="p">():</span>
+                <span class="n">logits</span> <span class="o">+=</span> <span class="n">kenlm_model</span><span class="o">.</span><span class="n">score</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
+                <span class="n">length</span> <span class="o">+=</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">line</span><span class="o">.</span><span class="n">split</span><span class="p">())</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="n">ppl</span> <span class="o">=</span> <span class="p">(</span><span class="mf">10.0</span><span class="o">**</span><span class="p">(</span><span class="o">-</span><span class="n">logits</span> <span class="o">/</span> <span class="n">length</span><span class="p">))</span> <span class="k">if</span> <span class="n">length</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">ppl</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="PerplexityFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span><span class="p">,</span>
+                       <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html b/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html
new file mode 100644
index 000000000..3d913f6c6
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html
@@ -0,0 +1,401 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.phrase_grounding_recall_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.phrase_grounding_recall_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">iou</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">nltk</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;phrase_grounding_recall_filter&#39;</span>
+
+
+<span class="c1"># NER algorithm adapted from GLIP starts</span>
+<span class="c1"># https://github.com/microsoft/GLIP/blob/main/maskrcnn_benchmark/engine/predictor_glip.py#L107-L127</span>
+<div class="viewcode-block" id="find_noun_phrases">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">find_noun_phrases</span><span class="p">(</span><span class="n">caption</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+    <span class="n">caption</span> <span class="o">=</span> <span class="n">caption</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+    <span class="n">tokens</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">word_tokenize</span><span class="p">(</span><span class="n">caption</span><span class="p">)</span>
+    <span class="n">pos_tags</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">pos_tag</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>
+
+    <span class="n">grammar</span> <span class="o">=</span> <span class="s1">&#39;NP: {&lt;DT&gt;?&lt;JJ.*&gt;*&lt;NN.*&gt;+}&#39;</span>
+    <span class="n">cp</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">RegexpParser</span><span class="p">(</span><span class="n">grammar</span><span class="p">)</span>
+    <span class="n">result</span> <span class="o">=</span> <span class="n">cp</span><span class="o">.</span><span class="n">parse</span><span class="p">(</span><span class="n">pos_tags</span><span class="p">)</span>
+
+    <span class="n">noun_phrases</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">subtree</span> <span class="ow">in</span> <span class="n">result</span><span class="o">.</span><span class="n">subtrees</span><span class="p">():</span>
+        <span class="k">if</span> <span class="n">subtree</span><span class="o">.</span><span class="n">label</span><span class="p">()</span> <span class="o">==</span> <span class="s1">&#39;NP&#39;</span><span class="p">:</span>
+            <span class="n">noun_phrases</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">t</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">subtree</span><span class="o">.</span><span class="n">leaves</span><span class="p">()))</span>
+
+    <span class="k">return</span> <span class="n">noun_phrases</span></div>
+
+
+
+<div class="viewcode-block" id="remove_punctuation">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">remove_punctuation</span><span class="p">(</span><span class="n">text</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+    <span class="n">punct</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="s1">&#39;|&#39;</span><span class="p">,</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;;&#39;</span><span class="p">,</span> <span class="s1">&#39;@&#39;</span><span class="p">,</span> <span class="s1">&#39;(&#39;</span><span class="p">,</span> <span class="s1">&#39;)&#39;</span><span class="p">,</span> <span class="s1">&#39;[&#39;</span><span class="p">,</span> <span class="s1">&#39;]&#39;</span><span class="p">,</span> <span class="s1">&#39;{&#39;</span><span class="p">,</span> <span class="s1">&#39;}&#39;</span><span class="p">,</span> <span class="s1">&#39;^&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\&#39;</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\&quot;</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39;’&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;`&#39;</span><span class="p">,</span> <span class="s1">&#39;?&#39;</span><span class="p">,</span> <span class="s1">&#39;$&#39;</span><span class="p">,</span> <span class="s1">&#39;%&#39;</span><span class="p">,</span> <span class="s1">&#39;#&#39;</span><span class="p">,</span> <span class="s1">&#39;!&#39;</span><span class="p">,</span> <span class="s1">&#39;&amp;&#39;</span><span class="p">,</span> <span class="s1">&#39;*&#39;</span><span class="p">,</span> <span class="s1">&#39;+&#39;</span><span class="p">,</span> <span class="s1">&#39;,&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span>
+    <span class="p">]</span>
+    <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">punct</span><span class="p">:</span>
+        <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="run_ner">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">run_ner</span><span class="p">(</span><span class="n">caption</span><span class="p">):</span>
+    <span class="n">noun_phrases</span> <span class="o">=</span> <span class="n">find_noun_phrases</span><span class="p">(</span><span class="n">caption</span><span class="p">)</span>
+    <span class="n">noun_phrases</span> <span class="o">=</span> <span class="p">[</span><span class="n">remove_punctuation</span><span class="p">(</span><span class="n">phrase</span><span class="p">)</span> <span class="k">for</span> <span class="n">phrase</span> <span class="ow">in</span> <span class="n">noun_phrases</span><span class="p">]</span>
+    <span class="n">noun_phrases</span> <span class="o">=</span> <span class="p">[</span><span class="n">phrase</span> <span class="k">for</span> <span class="n">phrase</span> <span class="ow">in</span> <span class="n">noun_phrases</span> <span class="k">if</span> <span class="n">phrase</span> <span class="o">!=</span> <span class="s1">&#39;&#39;</span><span class="p">]</span>
+    <span class="n">noun_phrases</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">noun_phrases</span><span class="p">))</span>  <span class="c1"># remove duplicate ners</span>
+    <span class="k">return</span> <span class="n">noun_phrases</span></div>
+
+
+
+<span class="c1"># NER algorithm adapted from GLIP ends</span>
+
+
+<div class="viewcode-block" id="PhraseGroundingRecallFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PhraseGroundingRecallFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples whose locating recalls of phrases extracted</span>
+<span class="sd">    from text in the images are within a specified range.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="PhraseGroundingRecallFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_owlvit</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;google/owlvit-base-patch32&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_recall</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+                 <span class="n">max_recall</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="n">iou_thr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="n">large_area_ratio_thr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span><span class="p">,</span>
+                 <span class="n">conf_thr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_owlvit: Owl-ViT model name on huggingface to locate the</span>
+<span class="sd">            phrases extracted from the text.</span>
+<span class="sd">        :param min_recall: The min phrase grounding recall to keep samples.</span>
+<span class="sd">        :param max_recall: The max phrase grounding recall to keep samples.</span>
+<span class="sd">        :param horizontal_flip: Flip image horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: Flip image vertically (top to bottom).</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param reduce_mode: reduce mode when one text corresponds to</span>
+<span class="sd">            multiple images in a chunk.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param iou_thr: the IoU threshold for NMS-like post-process. If two</span>
+<span class="sd">            predicted bboxes are overlap with an IoU larger than this</span>
+<span class="sd">            threshold, the bbox with less confidence will be removed. Default:</span>
+<span class="sd">            0.5.</span>
+<span class="sd">        :param large_area_ratio_thr: the area ratio threshold for filtering out</span>
+<span class="sd">            those large predicted bboxes. If the area of a predicted bbox</span>
+<span class="sd">            accounts for more than this ratio threshold of the whole image</span>
+<span class="sd">            area, this bbox will be removed. Default: 0.95.</span>
+<span class="sd">        :param conf_thr: the confidence score threshold for removing</span>
+<span class="sd">            low-confidence bboxes. If the confidence score of a predicted bbox</span>
+<span class="sd">            is lower than the threshold, this bbox will be removed. Default: 0.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_recall</span> <span class="o">=</span> <span class="n">min_recall</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_recall</span> <span class="o">=</span> <span class="n">max_recall</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_owlvit</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">iou_thr</span> <span class="o">=</span> <span class="n">iou_thr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">large_area_ratio_thr</span> <span class="o">=</span> <span class="n">large_area_ratio_thr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">conf_thr</span> <span class="o">=</span> <span class="n">conf_thr</span>
+
+        <span class="n">requires_nltk_data</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;punkt&#39;</span><span class="p">,</span> <span class="s1">&#39;averaged_perceptron_tagger&#39;</span><span class="p">]</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Downloading nltk data of </span><span class="si">{</span><span class="n">requires_nltk_data</span><span class="si">}</span><span class="s1">...&#39;</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">nltk_data_pkg</span> <span class="ow">in</span> <span class="n">requires_nltk_data</span><span class="p">:</span>
+            <span class="n">nltk</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">nltk_data_pkg</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="PhraseGroundingRecallFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">recalls</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="n">count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">)</span>
+
+            <span class="c1"># no image or no text</span>
+            <span class="k">if</span> <span class="n">count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_this_chunk</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+                <span class="n">ners_this_chunk</span> <span class="o">=</span> <span class="n">run_ner</span><span class="p">(</span><span class="n">text_this_chunk</span><span class="p">)</span>
+                <span class="n">num_ners</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">ners_this_chunk</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">num_ners</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="c1"># no ners found, just skip this chunk</span>
+                    <span class="n">recalls</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="mf">1.0</span><span class="p">)</span>
+                    <span class="k">continue</span>
+                <span class="n">images_this_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">count</span><span class="p">]:</span>
+                    <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                        <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                    <span class="n">images_this_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+
+                <span class="n">ners_batch</span> <span class="o">=</span> <span class="p">[</span><span class="n">ners_this_chunk</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">images_this_chunk</span><span class="p">)</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">ners_batch</span><span class="p">,</span>
+                                   <span class="n">images</span><span class="o">=</span><span class="n">images_this_chunk</span><span class="p">,</span>
+                                   <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                                   <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                   <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                    <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                    <span class="n">target_sizes</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span>
+                        <span class="n">img</span><span class="o">.</span><span class="n">size</span><span class="p">[::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">img</span> <span class="ow">in</span> <span class="n">images_this_chunk</span>
+                    <span class="p">])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                    <span class="n">results</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">post_process_object_detection</span><span class="p">(</span>
+                        <span class="n">outputs</span><span class="p">,</span>
+                        <span class="n">threshold</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">conf_thr</span><span class="p">,</span>
+                        <span class="n">target_sizes</span><span class="o">=</span><span class="n">target_sizes</span><span class="p">)</span>
+
+                <span class="n">image_recalls</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">result</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">results</span><span class="p">):</span>
+                    <span class="n">scores</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s1">&#39;scores&#39;</span><span class="p">]</span>
+                    <span class="n">labels</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s1">&#39;labels&#39;</span><span class="p">]</span>
+                    <span class="n">boxes</span> <span class="o">=</span> <span class="n">result</span><span class="p">[</span><span class="s1">&#39;boxes&#39;</span><span class="p">]</span>
+
+                    <span class="c1"># sort by the confidence scores</span>
+                    <span class="c1"># and only keep the first num_ners predictions</span>
+                    <span class="n">order_idx</span> <span class="o">=</span> <span class="n">scores</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">descending</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">scores</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="n">order_idx</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()[:</span><span class="n">num_ners</span><span class="p">]</span>
+                    <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="n">order_idx</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()[:</span><span class="n">num_ners</span><span class="p">]</span>
+                    <span class="n">boxes</span> <span class="o">=</span> <span class="n">boxes</span><span class="p">[</span><span class="n">order_idx</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()[:</span><span class="n">num_ners</span><span class="p">]</span>
+
+                    <span class="n">image_area</span> <span class="o">=</span> <span class="n">target_sizes</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span><span class="o">.</span><span class="n">prod</span><span class="p">()</span>
+                    <span class="n">hit</span> <span class="o">=</span> <span class="p">{}</span>
+                    <span class="k">for</span> <span class="n">box</span><span class="p">,</span> <span class="n">label</span><span class="p">,</span> <span class="n">score</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">boxes</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="n">scores</span><span class="p">):</span>
+                        <span class="c1"># this ner is already hit</span>
+                        <span class="k">if</span> <span class="n">ners_this_chunk</span><span class="p">[</span><span class="n">label</span><span class="p">]</span> <span class="ow">in</span> <span class="n">hit</span><span class="p">:</span>
+                            <span class="k">continue</span>
+                        <span class="c1"># skip boxes nearly cover the whole image</span>
+                        <span class="n">xmin</span><span class="p">,</span> <span class="n">ymin</span><span class="p">,</span> <span class="n">xmax</span><span class="p">,</span> <span class="n">ymax</span> <span class="o">=</span> <span class="n">box</span>
+                        <span class="n">box_area</span> <span class="o">=</span> <span class="p">(</span><span class="n">xmax</span> <span class="o">-</span> <span class="n">xmin</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">ymax</span> <span class="o">-</span> <span class="n">ymin</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="mf">1.0</span> <span class="o">*</span> <span class="n">box_area</span> <span class="o">/</span> <span class="n">image_area</span> <span class="o">&gt;</span> \
+                                <span class="bp">self</span><span class="o">.</span><span class="n">large_area_ratio_thr</span><span class="p">:</span>
+                            <span class="k">continue</span>
+                        <span class="c1"># skip overlapped boxes with nms-like method</span>
+                        <span class="n">suppressed</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">for</span> <span class="n">ner</span> <span class="ow">in</span> <span class="n">hit</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">iou</span><span class="p">(</span><span class="n">box</span><span class="p">,</span> <span class="n">hit</span><span class="p">[</span><span class="n">ner</span><span class="p">][</span><span class="mi">0</span><span class="p">])</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">iou_thr</span><span class="p">:</span>
+                                <span class="n">suppressed</span> <span class="o">=</span> <span class="kc">True</span>
+                                <span class="k">break</span>
+                        <span class="k">if</span> <span class="n">suppressed</span><span class="p">:</span>
+                            <span class="k">continue</span>
+
+                        <span class="c1"># record the new hit box</span>
+                        <span class="n">hit</span><span class="p">[</span><span class="n">ners_this_chunk</span><span class="p">[</span><span class="n">label</span><span class="p">]]</span> <span class="o">=</span> <span class="p">(</span><span class="n">box</span><span class="p">,</span> <span class="n">score</span><span class="p">)</span>
+
+                    <span class="n">recall</span> <span class="o">=</span> <span class="mf">1.0</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">hit</span><span class="p">)</span> <span class="o">/</span> <span class="n">num_ners</span>
+                    <span class="n">image_recalls</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">recall</span><span class="p">)</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">image_recall</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">image_recalls</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">image_recalls</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">image_recall</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">image_recalls</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">image_recall</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">image_recalls</span><span class="p">)</span>
+
+                <span class="n">recalls</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image_recall</span><span class="p">)</span>
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">count</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span><span class="p">]</span> <span class="o">=</span> <span class="n">recalls</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="PhraseGroundingRecallFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">recalls</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">recalls</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_recall</span> <span class="o">&lt;=</span> <span class="n">recall</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_recall</span> <span class="k">for</span> <span class="n">recall</span> <span class="ow">in</span> <span class="n">recalls</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/special_characters_filter.html b/_modules/data_juicer/ops/filter/special_characters_filter.html
new file mode 100644
index 000000000..2005978ae
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/special_characters_filter.html
@@ -0,0 +1,189 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.special_characters_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.special_characters_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">SPECIAL_CHARACTERS</span>
+
+
+<div class="viewcode-block" id="SpecialCharactersFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;special_characters_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">SpecialCharactersFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with special-char ratio within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="SpecialCharactersFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their special-char ratio is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their special-char ratio exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span></div>
+
+
+<div class="viewcode-block" id="SpecialCharactersFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="c1"># get ratio of special characters</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="nb">len</span><span class="p">([</span><span class="n">c</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">cur_text</span> <span class="k">if</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">])</span> <span class="o">/</span>
+                <span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cur_text</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="SpecialCharactersFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">,</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> \
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span><span class="p">]</span> \
+                    <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/specified_field_filter.html b/_modules/data_juicer/ops/filter/specified_field_filter.html
new file mode 100644
index 000000000..61cff7270
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/specified_field_filter.html
@@ -0,0 +1,179 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.specified_field_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.specified_field_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">NON_STATS_FILTERS</span><span class="p">,</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;specified_field_filter&#39;</span>
+
+
+<div class="viewcode-block" id="SpecifiedFieldFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">[docs]</a>
+<span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">SpecifiedFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Filter based on specified field information.</span>
+
+<span class="sd">    If the specified field information in the sample is not within the</span>
+<span class="sd">    specified target value, the sample will be filtered.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="SpecifiedFieldFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">target_value</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="p">[],</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Filter based on the specified value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param target_value: The range of specified field information</span>
+<span class="sd">            corresponding to the samples that need to be retained.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span> <span class="o">=</span> <span class="n">target_value</span></div>
+
+
+<div class="viewcode-block" id="SpecifiedFieldFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="SpecifiedFieldFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span><span class="p">):</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">field_value</span> <span class="o">=</span> <span class="n">sample</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span>
+            <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span>
+                <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="p">[</span><span class="n">field_value</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">field_value</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">value</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span>
+        <span class="k">return</span> <span class="kc">True</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
new file mode 100644
index 000000000..a901bc4c5
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
@@ -0,0 +1,197 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.specified_numeric_field_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.specified_numeric_field_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">NON_STATS_FILTERS</span><span class="p">,</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+
+<div class="viewcode-block" id="is_number">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">is_number</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">s</span><span class="p">:</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
+            <span class="k">pass</span>
+    <span class="k">return</span> <span class="kc">False</span></div>
+
+
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;specified_numeric_field_filter&#39;</span>
+
+
+<div class="viewcode-block" id="SpecifiedNumericFieldFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">[docs]</a>
+<span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">SpecifiedNumericFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Filter based on specified numeric field information.</span>
+
+<span class="sd">    If the specified numeric information in the sample is not within the</span>
+<span class="sd">    specified range, the sample will be filtered.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="SpecifiedNumericFieldFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">min_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">max_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Filter based on the specified numeric value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param min_value: The min filter value in SpecifiedNumericField</span>
+<span class="sd">            op, samples will be filtered if their specified numeric</span>
+<span class="sd">            field value is below this parameter.</span>
+<span class="sd">        :param max_value: The max filter value in SpecifiedNumericField</span>
+<span class="sd">            op, samples will be filtered if their specified numeric</span>
+<span class="sd">            field value exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_value</span> <span class="o">=</span> <span class="n">min_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span> <span class="o">=</span> <span class="n">max_value</span></div>
+
+
+<div class="viewcode-block" id="SpecifiedNumericFieldFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="SpecifiedNumericFieldFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">field_value</span> <span class="o">=</span> <span class="n">sample</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span>
+            <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">is_number</span><span class="p">(</span><span class="n">field_value</span><span class="p">):</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">field_value</span><span class="p">)</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_value</span> <span class="o">&lt;=</span> <span class="n">field_value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/stopwords_filter.html b/_modules/data_juicer/ops/filter/stopwords_filter.html
new file mode 100644
index 000000000..96268711e
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/stopwords_filter.html
@@ -0,0 +1,243 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.stopwords_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.stopwords_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.asset_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">ASSET_DIR</span><span class="p">,</span> <span class="n">load_words_asset</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
+                      <span class="n">words_refinement</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_WORDS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;stopwords_filter&#39;</span>
+
+
+<div class="viewcode-block" id="StopWordsFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">StopWordsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with stopword ratio larger than a specific min</span>
+<span class="sd">    value.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="StopWordsFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.3</span><span class="p">,</span>
+                 <span class="n">stopwords_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">ASSET_DIR</span><span class="p">,</span>
+                 <span class="n">use_words_aug</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">words_aug_group_sizes</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+                 <span class="n">words_aug_join_char</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: Consider stopwords in what language. If lang ==</span>
+<span class="sd">            &quot;all&quot;, we will adopt the one merged from all the available</span>
+<span class="sd">            languages</span>
+<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
+<span class="sd">        :param min_ratio: The min filter ratio in this op.</span>
+<span class="sd">        :param stopwords_dir: The directory storing the stopwords</span>
+<span class="sd">            file(s) whose name includes &quot;stopwords&quot; and in json format</span>
+<span class="sd">        :param use_words_aug: Whether to augment words, especially for</span>
+<span class="sd">            Chinese and Vietnamese</span>
+<span class="sd">        :param words_aug_group_sizes: The group size of words to augment</span>
+<span class="sd">        :param words_aug_join_char: The join char between words to</span>
+<span class="sd">            augment</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span> <span class="o">=</span> <span class="n">use_words_aug</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span> <span class="o">=</span> <span class="n">words_aug_group_sizes</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span> <span class="o">=</span> <span class="n">words_aug_join_char</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span> <span class="o">=</span> <span class="n">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="o">=</span><span class="n">stopwords_dir</span><span class="p">,</span>
+                                          <span class="n">words_type</span><span class="o">=</span><span class="s1">&#39;stopwords&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="s1">&#39;all&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">val</span> <span class="k">for</span> <span class="n">vals</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">vals</span>
+            <span class="p">]</span>
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                           <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="StopWordsFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># try to get words from context</span>
+        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
+                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+
+        <span class="c1"># try to get refined words from context</span>
+        <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">-True-SPECIAL_CHARS-&#39;</span> \
+                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="si">}</span><span class="s1">-&#39;</span> \
+                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="si">}</span><span class="s1">-&#39;</span> \
+                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span>
+                <span class="n">words</span><span class="p">,</span>
+                <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span>
+                <span class="n">use_words_aug</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="p">,</span>
+                <span class="n">words_aug_group_sizes</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="p">,</span>
+                <span class="n">words_aug_join_char</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+
+        <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="nb">len</span><span class="p">([</span><span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span>
+                     <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">]])</span>
+                <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">))</span> \
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+        <span class="k">if</span> <span class="n">stopwords_ratio</span> <span class="o">&gt;</span> <span class="mf">1.0</span><span class="p">:</span>
+            <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="mf">1.0</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="n">stopwords_ratio</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="StopWordsFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/suffix_filter.html b/_modules/data_juicer/ops/filter/suffix_filter.html
new file mode 100644
index 000000000..4ba39fedb
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/suffix_filter.html
@@ -0,0 +1,163 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.suffix_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.suffix_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">NON_STATS_FILTERS</span><span class="p">,</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;suffix_filter&#39;</span>
+
+
+<div class="viewcode-block" id="SuffixFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">[docs]</a>
+<span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">SuffixFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with specified suffix.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="SuffixFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param suffixes: the suffix of text that will be keep.</span>
+<span class="sd">            For example: &#39;.txt&#39;, &#39;txt&#39; or [&#39;txt&#39;, &#39;.pdf&#39;, &#39;docx&#39;]</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="n">suffixes</span></div>
+
+
+<div class="viewcode-block" id="SuffixFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="SuffixFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">suffix</span><span class="p">]</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/text_action_filter.html b/_modules/data_juicer/ops/filter/text_action_filter.html
new file mode 100644
index 000000000..046d49dbb
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/text_action_filter.html
@@ -0,0 +1,190 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.text_action_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.text_action_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.text_action_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">remove_special_tokens</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;text_action_filter&#39;</span>
+
+
+<div class="viewcode-block" id="TextActionFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TextActionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Filter to keep texts those contain actions in the text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TextActionFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">min_action_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: language of the text in the samples. &#39;en&#39; for detection of</span>
+<span class="sd">            actions in English and &#39;zh&#39; for detection of actions in Chinese.</span>
+<span class="sd">        :param mini_action_num: The min action number in the filtering. samples</span>
+<span class="sd">            will be filtered if their action number in the text is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="c1"># &#39;--no-deps&#39; do not update numpy</span>
+        <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;spacy-pkuseg&#39;</span><span class="p">],</span> <span class="s1">&#39;--no-deps&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">lang</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="s1">&#39;zh&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Language [</span><span class="si">{</span><span class="n">lang</span><span class="si">}</span><span class="s1">] is not supported in action detection.&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;en&quot;, &quot;zh&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;spacy&#39;</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">action_poss</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;VERB&#39;</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">action_tags</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;VV&#39;</span><span class="p">,</span> <span class="s1">&#39;VB&#39;</span><span class="p">,</span> <span class="s1">&#39;VBP&#39;</span><span class="p">,</span> <span class="s1">&#39;VBZ&#39;</span><span class="p">,</span> <span class="s1">&#39;VBD&#39;</span><span class="p">,</span> <span class="s1">&#39;VBG&#39;</span><span class="p">,</span> <span class="s1">&#39;VBN&#39;</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_action_num</span> <span class="o">=</span> <span class="n">min_action_num</span></div>
+
+
+<div class="viewcode-block" id="TextActionFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_action</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+
+        <span class="c1"># process text via spacy and count the actions in text</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+        <span class="n">doc</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">num_action</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">doc</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">pos_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_poss</span> \
+             <span class="ow">and</span> <span class="n">token</span><span class="o">.</span><span class="n">tag_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_tags</span><span class="p">:</span>
+                <span class="n">num_action</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_action</span><span class="p">]</span> <span class="o">=</span> <span class="n">num_action</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="TextActionFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">num_action</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_action</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_action_num</span> <span class="o">&lt;=</span> <span class="n">num_action</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html b/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html
new file mode 100644
index 000000000..cb093e0a0
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html
@@ -0,0 +1,227 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.text_entity_dependency_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.text_entity_dependency_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.text_entity_dependency_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">remove_special_tokens</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;text_entity_dependency_filter&#39;</span>
+
+
+<div class="viewcode-block" id="TextEntityDependencyFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TextEntityDependencyFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Identify the entities in the text which are independent with other token,</span>
+<span class="sd">    and filter them. The text containing no entities will be omitted.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TextEntityDependencyFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">min_dependency_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: language of the text in the samples. &#39;en&#39; for detection of</span>
+<span class="sd">            entities in English and &#39;zh&#39; for detection of entities in Chinese.</span>
+<span class="sd">        :param mini_dependency_num: The min token number in the filtering.</span>
+<span class="sd">            Objects is independent if their number of edges in the dependency</span>
+<span class="sd">            tree is below this parameter.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy.</span>
+<span class="sd">            &#39;any&#39;: keep this sample if any objet is dependent. &#39;all&#39;: keep this</span>
+<span class="sd">            sample only if all images are dependent.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="c1"># &#39;--no-deps&#39; do not update numpy</span>
+        <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;spacy-pkuseg&#39;</span><span class="p">],</span> <span class="s1">&#39;--no-deps&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">lang</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="s1">&#39;zh&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Language [</span><span class="si">{</span><span class="n">lang</span><span class="si">}</span><span class="s1">] is not supported in entities detection.&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;en&quot;, &quot;zh&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;spacy&#39;</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_poss</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;NOUN&#39;</span><span class="p">,</span> <span class="s1">&#39;PROPN&#39;</span><span class="p">,</span> <span class="s1">&#39;PRON&#39;</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_tags</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;NN&#39;</span><span class="p">,</span> <span class="s1">&#39;NR&#39;</span><span class="p">,</span> <span class="s1">&#39;PN&#39;</span><span class="p">,</span> <span class="s1">&#39;NNS&#39;</span><span class="p">,</span> <span class="s1">&#39;NNP&#39;</span><span class="p">,</span> <span class="s1">&#39;NNPS&#39;</span><span class="p">,</span> <span class="s1">&#39;PRP&#39;</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_dependency_num</span> <span class="o">=</span> <span class="n">min_dependency_num</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TextEntityDependencyFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_dependency_edges</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+
+        <span class="c1"># identify entities</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+        <span class="n">doc</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">entity_to_dependency_nums</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">doc</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">pos_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">entity_poss</span> \
+             <span class="ow">and</span> <span class="n">token</span><span class="o">.</span><span class="n">tag_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">entity_tags</span><span class="p">:</span>
+                <span class="n">entity_to_dependency_nums</span><span class="p">[</span><span class="n">token</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># count the edges of each entity in dependency tree</span>
+        <span class="k">for</span> <span class="n">obj</span> <span class="ow">in</span> <span class="n">entity_to_dependency_nums</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">obj</span><span class="o">.</span><span class="n">dep_</span> <span class="o">!=</span> <span class="s1">&#39;ROOT&#39;</span><span class="p">:</span>
+                <span class="n">entity_to_dependency_nums</span><span class="p">[</span><span class="n">obj</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">doc</span><span class="p">:</span>
+            <span class="c1"># the punctation mark such as &#39;,&#39;, &#39;.&#39;</span>
+            <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">pos_</span> <span class="o">==</span> <span class="s1">&#39;PUNCT&#39;</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="k">if</span> <span class="n">token</span><span class="o">.</span><span class="n">head</span> <span class="ow">in</span> <span class="n">entity_to_dependency_nums</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+            <span class="p">)</span> <span class="ow">and</span> <span class="n">token</span><span class="o">.</span><span class="n">dep_</span> <span class="o">!=</span> <span class="s1">&#39;ROOT&#39;</span><span class="p">:</span>
+                <span class="n">entity_to_dependency_nums</span><span class="p">[</span><span class="n">token</span><span class="o">.</span><span class="n">head</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_dependency_edges</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">n</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">entity_to_dependency_nums</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="TextEntityDependencyFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">num_dependency_edges</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_dependency_edges</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_dependency_num</span> <span class="o">&lt;=</span> <span class="n">num_edge</span>
+            <span class="k">for</span> <span class="n">num_edge</span> <span class="ow">in</span> <span class="n">num_dependency_edges</span>
+        <span class="p">])</span>
+        <span class="c1"># omit the samples without entity</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/text_length_filter.html b/_modules/data_juicer/ops/filter/text_length_filter.html
new file mode 100644
index 000000000..5232133ce
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/text_length_filter.html
@@ -0,0 +1,180 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.text_length_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.text_length_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+
+
+<div class="viewcode-block" id="TextLengthFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;text_length_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TextLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total text length within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="TextLengthFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_len: The min text length in the filtering. samples</span>
+<span class="sd">            will be filtered if their text length is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_len: The max text length in the filtering. samples</span>
+<span class="sd">            will be filtered if their text length exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
+
+
+<div class="viewcode-block" id="TextLengthFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">samples_stats</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples_list</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="TextLengthFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span>
+                <span class="n">max_len</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/token_num_filter.html b/_modules/data_juicer/ops/filter/token_num_filter.html
new file mode 100644
index 000000000..90c7147bd
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/token_num_filter.html
@@ -0,0 +1,183 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.token_num_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.token_num_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_words_from_document</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;token_num_filter&#39;</span>
+
+
+<div class="viewcode-block" id="TokenNumFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TokenNumFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total token number within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TokenNumFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_tokenizer</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">,</span>
+                 <span class="n">min_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">max_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_tokenizer: the tokenizer name of Hugging Face tokenizers.</span>
+<span class="sd">        :param min_num: The min filter token number in this op, samples</span>
+<span class="sd">            will be filtered if their token number is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_num: The max filter token number in this op, samples</span>
+<span class="sd">            will be filtered if their token number exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">=</span> <span class="n">min_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="o">=</span> <span class="n">max_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hf_tokenizer</span> <span class="o">=</span> <span class="n">hf_tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_tokenizer</span><span class="p">,</span>
+            <span class="n">return_model</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TokenNumFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_token</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
+            <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_token</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="TokenNumFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_token</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_aesthetics_filter.html b/_modules/data_juicer/ops/filter/video_aesthetics_filter.html
new file mode 100644
index 000000000..23c164939
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_aesthetics_filter.html
@@ -0,0 +1,324 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_aesthetics_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_aesthetics_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_aesthetics_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">...utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_SAMPLED_FRAMES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_aesthetics_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoAestheticsFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoAestheticsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep data samples with aesthetics scores for specified frames</span>
+<span class="sd">    in the videos within a specific range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoAestheticsFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_scorer_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.4</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;uniform&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_scorer_model: Huggingface model name for the aesthetics</span>
+<span class="sd">            predictor. By default, we will use</span>
+<span class="sd">            &#39;shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE&#39;,</span>
+<span class="sd">            refer to pypi.org/project/simple-aesthetics-predictor</span>
+<span class="sd">        :param min_score: Min score for the predicted aesthetics in a video.</span>
+<span class="sd">        :param max_score: Max score for the predicted aesthetics in a video.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos.</span>
+<span class="sd">            Should be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames and the latter one extract</span>
+<span class="sd">            specified number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;uniform&quot; with frame_num=3, considering that the number of</span>
+<span class="sd">            keyframes can be large while their difference is usually small</span>
+<span class="sd">            in terms of their aesthetics.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param any_or_all: Keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param reduce_mode: reduce mode when one sample corresponds to</span>
+<span class="sd">            multiple frames, must be one of [&#39;avg&#39;,&#39;max&#39;, &#39;min&#39;].</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param args: Extra positional arguments.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">hf_scorer_model</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">hf_scorer_model</span> <span class="o">=</span> \
+                <span class="s1">&#39;shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;simple_aesthetics&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_scorer_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="c1"># the original score predicted by laion-ai&#39;s scorer is within [0, 10]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">need_normalized_by_ten</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;shunk031/aesthetics-predictor&#39;</span>
+                                       <span class="ow">in</span> <span class="n">hf_scorer_model</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">&#39;</span> <span class="o">+</span> \
+            <span class="p">(</span><span class="s1">&#39;&#39;</span> <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span>
+             <span class="k">else</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_num</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoAestheticsFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">))</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">sampled_frames_key</span> <span class="o">=</span> <span class="n">key</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span>
+            <span class="k">if</span> <span class="n">video</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">elif</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">sampled_frames_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+                <span class="c1"># sampled frames can be found in the context</span>
+                <span class="n">frames</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="c1"># extract frame images</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                        <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+
+                <span class="c1"># store the sampled frames in the context</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">frames</span>
+            <span class="n">frame_images</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">frame_images</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="c1"># compute aesthetics_scores</span>
+                <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span>
+                                             <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                             <span class="n">use_cuda</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">frame_images</span><span class="p">,</span>
+                                   <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                    <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">need_normalized_by_ten</span><span class="p">:</span>
+                    <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span> <span class="o">/</span> <span class="mf">10.0</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">aesthetics_score</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">aesthetics_score</span><span class="o">.</span><span class="n">max</span><span class="p">())</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">aesthetics_score</span><span class="o">.</span><span class="n">min</span><span class="p">())</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">aesthetics_score</span> <span class="o">=</span> <span class="mf">0.0</span>
+
+            <span class="n">aesthetics_scores</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">aesthetics_score</span><span class="p">)</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;aesthetics_score: </span><span class="si">{</span><span class="n">aesthetics_scores</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">aesthetics_scores</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoAestheticsFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">sample</span><span class="p">)[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">aesthetics_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">aesthetics_score</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">aesthetics_score</span> <span class="ow">in</span> <span class="n">aesthetics_scores</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html b/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html
new file mode 100644
index 000000000..e944b08c6
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html
@@ -0,0 +1,215 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_aspect_ratio_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_aspect_ratio_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_aspect_ratio_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">fractions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fraction</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+
+<div class="viewcode-block" id="VideoAspectRatioFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;video_aspect_ratio_filter&#39;</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;video_aspect_ratio_filter&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoAspectRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with video aspect ratio within a specific range.</span>
+<span class="sd">    AspectRatio = W / H.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoAspectRatioFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;9/21&#39;</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;21/9&#39;</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_ratio: The minimum aspect ratio to keep samples,</span>
+<span class="sd">            supported format is a string, such as &quot;9:21&quot; or &quot;9/21&quot;.</span>
+<span class="sd">        :param max_ratio: The maximum aspect ratio to keep samples,</span>
+<span class="sd">            supported format is a string, such as &quot;21:9&quot; or &quot;21/9&quot;.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">min_ratio</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;/&#39;</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">max_ratio</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;/&#39;</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoAspectRatioFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="c1"># compute aspect ratios for each video with W/H</span>
+        <span class="n">video_aspect_ratios</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">stream</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">video_aspect_ratios</span><span class="p">[</span>
+                <span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span> <span class="o">/</span> <span class="n">stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">video_aspect_ratios</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoAspectRatioFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">video_aspect_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span><span class="p">]</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">aspect_ratio</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span>
+            <span class="k">for</span> <span class="n">aspect_ratio</span> <span class="ow">in</span> <span class="n">video_aspect_ratios</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_duration_filter.html b/_modules/data_juicer/ops/filter/video_duration_filter.html
new file mode 100644
index 000000000..73d0ea19e
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_duration_filter.html
@@ -0,0 +1,214 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_duration_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_duration_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_duration_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_duration_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoDurationFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoDurationFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose videos&#39; durations are within a specified range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoDurationFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">max_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_duration: The min video duration to keep samples in seconds.</span>
+<span class="sd">            It&#39;s 0 by default.</span>
+<span class="sd">        :param max_duration: The max video duration to keep samples in seconds.</span>
+<span class="sd">            It&#39;s sys.maxsize by default.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_duration</span> <span class="o">=</span> <span class="n">min_duration</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_duration</span> <span class="o">=</span> <span class="n">max_duration</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoDurationFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">video_durations</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">stream</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">video_durations</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">stream</span><span class="o">.</span><span class="n">duration</span> <span class="o">*</span>
+                                               <span class="n">stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+
+        <span class="c1"># get video durations</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">video_durations</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoDurationFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">video_durations</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_duration</span> <span class="o">&lt;=</span> <span class="n">duration</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_duration</span>
+            <span class="k">for</span> <span class="n">duration</span> <span class="ow">in</span> <span class="n">video_durations</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html b/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html
new file mode 100644
index 000000000..101ec59a6
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html
@@ -0,0 +1,336 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_frames_text_similarity_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_frames_text_similarity_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_frames_text_similarity_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_SAMPLED_FRAMES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_frames_text_similarity_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoFramesTextSimilarityFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoFramesTextSimilarityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples those similarities between sampled video frame</span>
+<span class="sd">    images and text within a specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoFramesTextSimilarityFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_clip</span><span class="o">=</span><span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_clip: clip model name on huggingface to compute</span>
+<span class="sd">            the similarity between frame image and text. It&#39;s kind of</span>
+<span class="sd">            language-related. For example, for Chinese datasets, ChineseCLIP</span>
+<span class="sd">            might be a better choice.</span>
+<span class="sd">        :param min_score: the min similarity to keep samples.</span>
+<span class="sd">        :param max_score: the max similarity to keep samples.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos.</span>
+<span class="sd">            Should be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number of which depends</span>
+<span class="sd">            on the duration of the video) and the latter one extract specified</span>
+<span class="sd">            number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param horizontal_flip: flip frame image horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: flip frame image vertically (top to bottom).</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param reduce_mode: reduce mode when one text corresponds to</span>
+<span class="sd">            multiple video frame images in a chunk.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_clip</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">&#39;</span> <span class="o">+</span> \
+            <span class="p">(</span><span class="s1">&#39;&#39;</span> <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span>
+             <span class="k">else</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_num</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoFramesTextSimilarityFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                    <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">similarity</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="n">count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+
+            <span class="c1"># no video or no text</span>
+            <span class="k">if</span> <span class="n">count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_chunk</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+                <span class="n">video_frame_images_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="n">sampled_frames_key</span> <span class="o">=</span> <span class="n">video_key</span> <span class="o">+</span> \
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span>
+
+                    <span class="c1"># extract frame images</span>
+                    <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">sampled_frames_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span>
+                            <span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+                        <span class="c1"># context hit</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                                <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+
+                        <span class="c1"># store the sampled frames in the context</span>
+                        <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">frames</span>
+
+                    <span class="n">frame_images</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">image</span> <span class="ow">in</span> <span class="n">frame_images</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                            <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                            <span class="n">image</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+                        <span class="n">video_frame_images_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">video_frame_images_chunk</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">text_chunk</span><span class="p">,</span>
+                                       <span class="n">images</span><span class="o">=</span><span class="n">video_frame_images_chunk</span><span class="p">,</span>
+                                       <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                                       <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                       <span class="n">max_length</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span>
+                                       <span class="n">max_position_embeddings</span><span class="p">,</span>
+                                       <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+                    <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                    <span class="n">chunk_logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits_per_text</span> <span class="o">/</span> <span class="mf">100.0</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                        <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                        <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="n">chunk_logits</span><span class="o">.</span><span class="n">min</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">chunk_similarity</span> <span class="o">=</span> <span class="mf">0.0</span>
+
+                <span class="n">similarity</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">chunk_similarity</span><span class="p">))</span>
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">count</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span><span class="p">]</span> <span class="o">=</span> <span class="n">similarity</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoFramesTextSimilarityFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">similarity</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">sim_value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">sim_value</span> <span class="ow">in</span> <span class="n">similarity</span>
+        <span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_motion_score_filter.html b/_modules/data_juicer/ops/filter/video_motion_score_filter.html
new file mode 100644
index 000000000..d67b430ab
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_motion_score_filter.html
@@ -0,0 +1,348 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_motion_score_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_motion_score_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">contextlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">contextmanager</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveFloat</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">calculate_resized_dimensions</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Filter</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_motion_score_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoCapture">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture">[docs]</a>
+<span class="nd">@contextmanager</span>
+<span class="k">def</span><span class="w"> </span><span class="nf">VideoCapture</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+    <span class="n">cap</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">VideoCapture</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="k">yield</span> <span class="n">cap</span>
+    <span class="k">finally</span><span class="p">:</span>
+        <span class="n">cap</span><span class="o">.</span><span class="n">release</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="VideoMotionScoreFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoMotionScoreFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with video motion scores within a specific range. The</span>
+<span class="sd">    Farneback&#39;s algorith from OpenCV is used to compute dense optical flow.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;pyr_scale&#39;</span><span class="p">:</span> <span class="mf">0.5</span><span class="p">,</span>
+        <span class="s1">&#39;levels&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;winsize&#39;</span><span class="p">:</span> <span class="mi">15</span><span class="p">,</span>
+        <span class="s1">&#39;iterations&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;poly_n&#39;</span><span class="p">:</span> <span class="mi">5</span><span class="p">,</span>
+        <span class="s1">&#39;poly_sigma&#39;</span><span class="p">:</span> <span class="mf">1.2</span><span class="p">,</span>
+        <span class="s1">&#39;flags&#39;</span><span class="p">:</span> <span class="mi">0</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="VideoMotionScoreFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">float_info</span><span class="o">.</span><span class="n">max</span><span class="p">,</span>
+                 <span class="n">sampling_fps</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="n">size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">],</span>
+                             <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">divisible</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">relative</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_score: The minimum motion score to keep samples.</span>
+<span class="sd">        :param max_score: The maximum motion score to keep samples.</span>
+<span class="sd">        :param sampling_fps: The sampling rate in frames_per_second for</span>
+<span class="sd">            optical flow calculations.</span>
+<span class="sd">        :param size: Resize frames before computing optical flow. If size is a</span>
+<span class="sd">            sequence like (h, w), frame size will be matched to this. If size</span>
+<span class="sd">            is an int, smaller edge of frames will be matched to this number.</span>
+<span class="sd">            i.e, if height &gt; width, then frame will be rescaled to (size *</span>
+<span class="sd">            height / width, size). Default `None` to keep the original size.</span>
+<span class="sd">        :param max_size: The maximum allowed for the longer edge of resized</span>
+<span class="sd">            frames. If the longer edge of frames is greater than max_size after</span>
+<span class="sd">            being resized according to size, size will be overruled so that the</span>
+<span class="sd">            longer edge is equal to max_size. As a result, the smaller edge may</span>
+<span class="sd">            be shorter than size. This is only supported if size is an int.</span>
+<span class="sd">        :param divisible: The number that the dimensions must be divisible by.</span>
+<span class="sd">        :param relative: If `True`, the optical flow magnitude is normalized to</span>
+<span class="sd">            a [0, 1] range, relative to the frame&#39;s diagonal length.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span> <span class="o">=</span> <span class="n">max_score</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_fps</span> <span class="o">=</span> <span class="n">sampling_fps</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">size</span><span class="p">,</span> <span class="p">(</span><span class="nb">list</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">size</span><span class="p">)</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">]:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;Size must be an int or a 1 or 2 element tuple/list,&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;not a </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">size</span><span class="p">)</span><span class="si">}</span><span class="s1"> element tuple/list.&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">size</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+            <span class="n">size</span> <span class="o">=</span> <span class="p">(</span><span class="n">size</span><span class="p">,</span> <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">size</span> <span class="o">=</span> <span class="n">size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span> <span class="o">=</span> <span class="n">max_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">divisible</span> <span class="o">=</span> <span class="n">divisible</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relative</span> <span class="o">=</span> <span class="n">relative</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_default_kwargs</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreFilter.setup_model">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">calcOpticalFlowFarneback</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreFilter.compute_flow">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_flow</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">):</span>
+        <span class="n">curr_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cvtColor</span><span class="p">(</span><span class="n">curr_frame</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">COLOR_BGR2GRAY</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">prev_frame</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">flow</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">flow</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span>
+                              <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">flow</span><span class="p">,</span> <span class="n">curr_frame</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span>
+
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_motion_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_motion_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">setup_model</span><span class="p">(</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">unique_motion_scores</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="c1"># skip duplicate videos</span>
+            <span class="k">if</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">unique_motion_scores</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">video_motion_scores</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">VideoCapture</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span> <span class="k">as</span> <span class="n">cap</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">cap</span><span class="o">.</span><span class="n">isOpened</span><span class="p">():</span>
+                    <span class="n">fps</span> <span class="o">=</span> <span class="n">cap</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">CAP_PROP_FPS</span><span class="p">)</span>
+                    <span class="n">sampling_fps</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_fps</span><span class="p">,</span> <span class="n">fps</span><span class="p">)</span>
+                    <span class="n">sampling_step</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">fps</span> <span class="o">/</span> <span class="n">sampling_fps</span><span class="p">)</span>
+                    <span class="n">total_frames</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">cap</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">CAP_PROP_FRAME_COUNT</span><span class="p">))</span>
+                    <span class="c1"># at least two frames for computing optical flow</span>
+                    <span class="n">sampling_step</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">sampling_step</span><span class="p">,</span> <span class="n">total_frames</span> <span class="o">-</span> <span class="mi">1</span><span class="p">),</span>
+                                        <span class="mi">1</span><span class="p">)</span>
+                    <span class="n">height</span> <span class="o">=</span> <span class="n">cap</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">CAP_PROP_FRAME_HEIGHT</span><span class="p">)</span>
+                    <span class="n">width</span> <span class="o">=</span> <span class="n">cap</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">CAP_PROP_FRAME_WIDTH</span><span class="p">)</span>
+                    <span class="n">new_size</span> <span class="o">=</span> <span class="n">calculate_resized_dimensions</span><span class="p">(</span>
+                        <span class="p">(</span><span class="n">height</span><span class="p">,</span> <span class="n">width</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">size</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_size</span><span class="p">,</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">divisible</span><span class="p">)</span>
+
+                <span class="n">prev_frame</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">frame_count</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">while</span> <span class="n">cap</span><span class="o">.</span><span class="n">isOpened</span><span class="p">():</span>
+                    <span class="n">ret</span><span class="p">,</span> <span class="n">frame</span> <span class="o">=</span> <span class="n">cap</span><span class="o">.</span><span class="n">read</span><span class="p">()</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="n">ret</span><span class="p">:</span>
+                        <span class="c1"># If the frame can&#39;t be read, it could be due to</span>
+                        <span class="c1"># a corrupt frame or reaching the end of the video.</span>
+                        <span class="k">break</span>
+
+                    <span class="k">if</span> <span class="n">new_size</span> <span class="o">!=</span> <span class="p">(</span><span class="n">height</span><span class="p">,</span> <span class="n">width</span><span class="p">):</span>
+                        <span class="n">frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">resize</span><span class="p">(</span><span class="n">frame</span><span class="p">,</span>
+                                           <span class="n">new_size</span><span class="p">,</span>
+                                           <span class="n">interpolation</span><span class="o">=</span><span class="n">cv2</span><span class="o">.</span><span class="n">INTER_AREA</span><span class="p">)</span>
+
+                    <span class="c1"># return flow of shape (H, W, 2) and transformed frame</span>
+                    <span class="c1"># of shape (H, W, 3) in BGR mode</span>
+                    <span class="n">flow</span><span class="p">,</span> <span class="n">prev_frame</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_flow</span><span class="p">(</span><span class="n">prev_frame</span><span class="p">,</span> <span class="n">frame</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="n">flow</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                        <span class="k">continue</span>
+                    <span class="n">mag</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cartToPolar</span><span class="p">(</span><span class="n">flow</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="n">flow</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">])</span>
+                    <span class="n">frame_motion_score</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">mag</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">relative</span><span class="p">:</span>
+                        <span class="n">frame_motion_score</span> <span class="o">/=</span> <span class="n">np</span><span class="o">.</span><span class="n">hypot</span><span class="p">(</span><span class="o">*</span><span class="n">frame</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">])</span>
+                    <span class="n">video_motion_scores</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame_motion_score</span><span class="p">)</span>
+
+                    <span class="c1"># quickly skip frames</span>
+                    <span class="n">frame_count</span> <span class="o">+=</span> <span class="n">sampling_step</span>
+                    <span class="n">cap</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">CAP_PROP_POS_FRAMES</span><span class="p">,</span> <span class="n">frame_count</span><span class="p">)</span>
+
+            <span class="c1"># may due to frame corruption</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">video_motion_scores</span><span class="p">:</span>
+                <span class="n">unique_motion_scores</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">unique_motion_scores</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">video_motion_scores</span>
+                                                          <span class="ow">or</span> <span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_motion_score</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">unique_motion_scores</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">video_motion_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_motion_score</span><span class="p">]</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">&lt;=</span> <span class="n">motion_score</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_score</span>
+            <span class="k">for</span> <span class="n">motion_score</span> <span class="ow">in</span> <span class="n">video_motion_scores</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html b/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html
new file mode 100644
index 000000000..5fb2f64f7
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html
@@ -0,0 +1,201 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_motion_score_raft_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_motion_score_raft_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_motion_score_raft_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveFloat</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">cuda_device_count</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.filter.video_motion_score_filter</span><span class="w"> </span><span class="kn">import</span> \
+    <span class="n">VideoMotionScoreFilter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">tvm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;tvm&#39;</span><span class="p">,</span> <span class="s1">&#39;torchvision.models&#39;</span><span class="p">)</span>
+<span class="n">tvt</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;tvt&#39;</span><span class="p">,</span> <span class="s1">&#39;torchvision.transforms&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_motion_score_raft_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoMotionScoreRaftFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoMotionScoreRaftFilter</span><span class="p">(</span><span class="n">VideoMotionScoreFilter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with video motion scores within a specified range.</span>
+<span class="sd">    This operator utilizes the RAFT (Recurrent All-Pairs Field Transforms)</span>
+<span class="sd">    model from torchvision to predict optical flow between video frames.</span>
+
+<span class="sd">    For further details, refer to the official torchvision documentation:</span>
+<span class="sd">    https://pytorch.org/vision/main/models/raft.html</span>
+
+<span class="sd">    The original paper on RAFT is available here:</span>
+<span class="sd">    https://arxiv.org/abs/2003.12039</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+<div class="viewcode-block" id="VideoMotionScoreRaftFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">float_info</span><span class="o">.</span><span class="n">max</span><span class="p">,</span>
+                 <span class="n">sampling_fps</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="n">size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">],</span>
+                             <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">divisible</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">8</span><span class="p">,</span>
+                 <span class="n">relative</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">min_score</span><span class="p">,</span> <span class="n">max_score</span><span class="p">,</span> <span class="n">sampling_fps</span><span class="p">,</span> <span class="n">size</span><span class="p">,</span> <span class="n">max_size</span><span class="p">,</span>
+                         <span class="n">divisible</span><span class="p">,</span> <span class="n">relative</span><span class="p">,</span> <span class="n">any_or_all</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreRaftFilter.setup_model">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">tvm</span><span class="o">.</span><span class="n">optical_flow</span><span class="o">.</span><span class="n">raft_large</span><span class="p">(</span>
+            <span class="n">weights</span><span class="o">=</span><span class="n">tvm</span><span class="o">.</span><span class="n">optical_flow</span><span class="o">.</span><span class="n">Raft_Large_Weights</span><span class="o">.</span><span class="n">DEFAULT</span><span class="p">,</span>
+            <span class="n">progress</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="k">if</span> <span class="n">rank</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="o">%</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;cuda:</span><span class="si">{</span><span class="n">rank</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="s1">&#39;cpu&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">transforms</span> <span class="o">=</span> <span class="n">tvt</span><span class="o">.</span><span class="n">Compose</span><span class="p">([</span>
+            <span class="n">tvt</span><span class="o">.</span><span class="n">ToTensor</span><span class="p">(),</span>
+            <span class="n">tvt</span><span class="o">.</span><span class="n">Normalize</span><span class="p">(</span><span class="n">mean</span><span class="o">=</span><span class="mf">0.5</span><span class="p">,</span> <span class="n">std</span><span class="o">=</span><span class="mf">0.5</span><span class="p">),</span>  <span class="c1"># map [0, 1] into [-1, 1]</span>
+            <span class="n">tvt</span><span class="o">.</span><span class="n">Lambda</span><span class="p">(</span><span class="k">lambda</span> <span class="n">img</span><span class="p">:</span> <span class="n">img</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)),</span>  <span class="c1"># BGR to RGB</span>
+        <span class="p">])</span></div>
+
+
+<div class="viewcode-block" id="VideoMotionScoreRaftFilter.compute_flow">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_flow</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">):</span>
+        <span class="n">curr_frame</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transforms</span><span class="p">(</span><span class="n">curr_frame</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">prev_frame</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">flow</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">inference_mode</span><span class="p">():</span>
+                <span class="n">flows</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">)</span>
+            <span class="n">flow</span> <span class="o">=</span> <span class="n">flows</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>  <span class="c1"># 2, H, W -&gt; H, W, 2</span>
+        <span class="k">return</span> <span class="n">flow</span><span class="p">,</span> <span class="n">curr_frame</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_nsfw_filter.html b/_modules/data_juicer/ops/filter/video_nsfw_filter.html
new file mode 100644
index 000000000..7142adfd1
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_nsfw_filter.html
@@ -0,0 +1,298 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_nsfw_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_nsfw_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_nsfw_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_SAMPLED_FRAMES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_nsfw_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoNSFWFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoNSFWFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples whose videos have low nsfw scores.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoNSFWFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_nsfw_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Falconsai/nsfw_image_detection&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">score_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_nsfw_model: nsfw detection model name on huggingface.</span>
+<span class="sd">        :param score_threshold: the nsfw score threshold for samples.</span>
+<span class="sd">            range from 0 to 1. Samples with nsfw score less than this threshold</span>
+<span class="sd">            will be kept.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos.</span>
+<span class="sd">            Should be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number of which depends</span>
+<span class="sd">            on the duration of the video) and the latter one extract specified</span>
+<span class="sd">            number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param reduce_mode: reduce mode for multiple sampled video frames.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;1GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_threshold</span> <span class="o">=</span> <span class="n">score_threshold</span>
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_nsfw_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">&#39;</span> <span class="o">+</span> \
+            <span class="p">(</span><span class="s1">&#39;&#39;</span> <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span>
+             <span class="k">else</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_num</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoNSFWFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">nsfw_scores</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">sampled_frames_key</span> <span class="o">=</span> <span class="n">video_key</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span>
+
+            <span class="c1"># extract frame images</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">sampled_frames_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+                <span class="c1"># context hit</span>
+                <span class="n">frames</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                        <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+
+                <span class="c1"># store the sampled frames in the context</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">frames</span>
+
+            <span class="n">frame_images</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">frame_images</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">frame_images</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">inputs</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                <span class="n">logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+                <span class="n">cur_scores</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">scores</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">scores</span> <span class="ow">in</span> <span class="n">torch</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="n">cur_scores</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">(</span><span class="n">cur_scores</span><span class="p">)</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">cur_score</span> <span class="o">=</span> <span class="n">cur_scores</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">cur_score</span> <span class="o">=</span> <span class="n">cur_scores</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">cur_score</span> <span class="o">=</span> <span class="n">cur_scores</span><span class="o">.</span><span class="n">min</span><span class="p">()</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">cur_score</span> <span class="o">=</span> <span class="mf">0.0</span>
+
+            <span class="n">nsfw_scores</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">cur_score</span><span class="p">))</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">nsfw_scores</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoNSFWFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">itm_score</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">score_threshold</span> <span class="k">for</span> <span class="n">itm_score</span> <span class="ow">in</span> <span class="n">itm_scores</span><span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html b/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html
new file mode 100644
index 000000000..193a7682f
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html
@@ -0,0 +1,325 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_ocr_area_ratio_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_ocr_area_ratio_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">cuda_device_count</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_SAMPLED_FRAMES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">easyocr</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;easyocr&#39;</span><span class="p">,</span> <span class="s1">&#39;easyocr&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_ocr_area_ratio_filter&#39;</span>
+
+
+<div class="viewcode-block" id="triangle_area">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">triangle_area</span><span class="p">(</span><span class="n">p1</span><span class="p">,</span> <span class="n">p2</span><span class="p">,</span> <span class="n">p3</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Compute the triangle area according to its coordinates.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x1</span><span class="p">,</span> <span class="n">y1</span> <span class="o">=</span> <span class="n">p1</span>
+    <span class="n">x2</span><span class="p">,</span> <span class="n">y2</span> <span class="o">=</span> <span class="n">p2</span>
+    <span class="n">x3</span><span class="p">,</span> <span class="n">y3</span> <span class="o">=</span> <span class="n">p3</span>
+    <span class="n">tri_area</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">x1</span> <span class="o">*</span> <span class="n">y2</span> <span class="o">+</span> <span class="n">x2</span> <span class="o">*</span> <span class="n">y3</span> <span class="o">+</span> <span class="n">x3</span> <span class="o">*</span> <span class="n">y1</span> <span class="o">-</span> <span class="n">x2</span> <span class="o">*</span> <span class="n">y1</span> <span class="o">-</span> <span class="n">x3</span> <span class="o">*</span> <span class="n">y2</span> <span class="o">-</span>
+                            <span class="n">x1</span> <span class="o">*</span> <span class="n">y3</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">tri_area</span></div>
+
+
+
+<div class="viewcode-block" id="VideoOcrAreaRatioFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoOcrAreaRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose detected text area ratios for specified frames</span>
+<span class="sd">    in the video are within a specified range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoOcrAreaRatioFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_area_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">max_area_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">frame_sample_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">languages_to_detect</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;ch_sim&#39;</span><span class="p">,</span> <span class="s1">&#39;en&#39;</span><span class="p">],</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_area_ratio: The min ocr area ratio to keep samples. It&#39;s 0</span>
+<span class="sd">            by default.</span>
+<span class="sd">        :param max_area_ratio: The max ocr area ratio to keep samples. It&#39;s 1.0</span>
+<span class="sd">            by default.</span>
+<span class="sd">        :param frame_sample_num: The number of sampled frames to calculate the</span>
+<span class="sd">            ocr area ratio. If it&#39;s 1, only middle frame will be selected. If</span>
+<span class="sd">            it&#39;s 2, only the first and the last frames will be selected. If</span>
+<span class="sd">            it&#39;s larger than 2, in addition to the first and the last frames,</span>
+<span class="sd">            other frames will be sampled evenly within the video duration.</span>
+<span class="sd">        :param languages_to_detect: texts in which languages should be</span>
+<span class="sd">            detected. Default: [&#39;ch_sim&#39;, &#39;en&#39;]. Full language list can be</span>
+<span class="sd">            found here: https://www.jaided.ai/easyocr/.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_area_ratio</span> <span class="o">=</span> <span class="n">min_area_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_area_ratio</span> <span class="o">=</span> <span class="n">max_area_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sample_num</span> <span class="o">=</span> <span class="n">frame_sample_num</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="c1"># initialize easyocr reader</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">languages_to_detect</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">languages_to_detect</span> <span class="o">=</span> <span class="p">[</span><span class="n">languages_to_detect</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reader</span> <span class="o">=</span> <span class="n">easyocr</span><span class="o">.</span><span class="n">Reader</span><span class="p">(</span>
+            <span class="n">lang_list</span><span class="o">=</span><span class="n">languages_to_detect</span><span class="p">,</span>
+            <span class="n">recognizer</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">gpu</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="c1"># only uniformly sampling method is supported in this OP</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;-uniform-</span><span class="si">{</span><span class="n">frame_sample_num</span><span class="si">}</span><span class="s1">&#39;</span></div>
+
+
+<div class="viewcode-block" id="VideoOcrAreaRatioFilter.get_reader">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_reader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="mi">0</span> <span class="k">if</span> <span class="n">rank</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">rank</span>
+            <span class="n">device</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;cuda:</span><span class="si">{</span><span class="n">rank</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="n">cuda_device_count</span><span class="p">()</span><span class="si">}</span><span class="s1">&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">reader</span><span class="o">.</span><span class="n">detector</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">reader</span><span class="o">.</span><span class="n">detector</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">reader</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">device</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">reader</span></div>
+
+
+<div class="viewcode-block" id="VideoOcrAreaRatioFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">reader</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_reader</span><span class="p">(</span><span class="n">rank</span><span class="p">)</span>
+        <span class="c1"># compute ocr area ratios</span>
+        <span class="n">video_ocr_area_ratios</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">container</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">sampled_frames_key</span> <span class="o">=</span> <span class="n">video_key</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">sampled_frames_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+                <span class="n">sampled_frames</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sampled_frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                    <span class="n">container</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sample_num</span><span class="p">)</span>
+                <span class="c1"># store the sampled frames in the context</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">sampled_frames</span>
+            <span class="n">images</span> <span class="o">=</span> <span class="p">[</span><span class="n">f</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">sampled_frames</span><span class="p">]</span>
+            <span class="c1"># collect ocr results for each image</span>
+            <span class="n">frame_ocr_area_ratios</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">image</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">images</span><span class="p">):</span>
+                <span class="c1"># return horizontal detected results and free-form detected</span>
+                <span class="c1"># results</span>
+                <span class="n">horizontal_list</span><span class="p">,</span> <span class="n">free_list</span> <span class="o">=</span> <span class="n">reader</span><span class="o">.</span><span class="n">detect</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">image</span><span class="p">))</span>
+                <span class="n">total_area</span> <span class="o">=</span> <span class="n">image</span><span class="o">.</span><span class="n">width</span> <span class="o">*</span> <span class="n">image</span><span class="o">.</span><span class="n">height</span>
+                <span class="c1"># rectangles</span>
+                <span class="n">rect_area</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">for</span> <span class="n">xmin</span><span class="p">,</span> <span class="n">xmax</span><span class="p">,</span> <span class="n">ymin</span><span class="p">,</span> <span class="n">ymax</span> <span class="ow">in</span> <span class="n">horizontal_list</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+                    <span class="k">if</span> <span class="n">xmax</span> <span class="o">&lt;</span> <span class="n">xmin</span> <span class="ow">or</span> <span class="n">ymax</span> <span class="o">&lt;</span> <span class="n">ymin</span><span class="p">:</span>
+                        <span class="k">continue</span>
+                    <span class="n">rect_area</span> <span class="o">+=</span> <span class="p">(</span><span class="n">xmax</span> <span class="o">-</span> <span class="n">xmin</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">ymax</span> <span class="o">-</span> <span class="n">ymin</span><span class="p">)</span>
+                <span class="c1"># free-form</span>
+                <span class="n">quad_area</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">for</span> <span class="n">points</span> <span class="ow">in</span> <span class="n">free_list</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+                    <span class="n">triangle1</span> <span class="o">=</span> <span class="n">points</span><span class="p">[:</span><span class="mi">3</span><span class="p">]</span>
+                    <span class="n">quad_area</span> <span class="o">+=</span> <span class="n">triangle_area</span><span class="p">(</span><span class="o">*</span><span class="n">triangle1</span><span class="p">)</span>
+                    <span class="n">triangle2</span> <span class="o">=</span> <span class="n">points</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span> <span class="o">+</span> <span class="p">[</span><span class="n">points</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
+                    <span class="n">quad_area</span> <span class="o">+=</span> <span class="n">triangle_area</span><span class="p">(</span><span class="o">*</span><span class="n">triangle2</span><span class="p">)</span>
+                <span class="n">text_area</span> <span class="o">=</span> <span class="n">rect_area</span> <span class="o">+</span> <span class="n">quad_area</span>
+                <span class="n">frame_ocr_area_ratios</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">text_area</span> <span class="o">/</span> <span class="n">total_area</span><span class="p">)</span>
+
+                <span class="c1"># for debug</span>
+                <span class="c1"># if False:</span>
+                <span class="c1">#     from PIL import ImageDraw</span>
+                <span class="c1">#     draw = ImageDraw.Draw(image)</span>
+                <span class="c1">#     for xmin, xmax, ymin, ymax in horizontal_list[0]:</span>
+                <span class="c1">#         if xmax &lt; xmin or ymax &lt; ymin:</span>
+                <span class="c1">#             continue</span>
+                <span class="c1">#         draw.rectangle((xmin, ymin, xmax, ymax),</span>
+                <span class="c1">#                        outline=&#39;red&#39;,</span>
+                <span class="c1">#                        width=1)</span>
+                <span class="c1">#     for points in free_list[0]:</span>
+                <span class="c1">#         points = [(int(item[0]), int(item[1]))</span>
+                <span class="c1">#                   for item in points]</span>
+                <span class="c1">#         draw.polygon(points, outline=&#39;blue&#39;, width=1)</span>
+                <span class="c1">#     image.save(f&#39;{video_key}-{idx}.jpg&#39;)</span>
+            <span class="n">video_ocr_area_ratios</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">frame_ocr_area_ratios</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+
+        <span class="c1"># get video durations</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">video_ocr_area_ratios</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoOcrAreaRatioFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">video_ocr_area_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_area_ratio</span> <span class="o">&lt;=</span> <span class="n">ocr_area_ratio</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_area_ratio</span>
+            <span class="k">for</span> <span class="n">ocr_area_ratio</span> <span class="ow">in</span> <span class="n">video_ocr_area_ratios</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_resolution_filter.html b/_modules/data_juicer/ops/filter/video_resolution_filter.html
new file mode 100644
index 000000000..d79d44c7b
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_resolution_filter.html
@@ -0,0 +1,234 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_resolution_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_resolution_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_resolution_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_resolution_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoResolutionFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoResolutionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose videos&#39; resolutions are within a specified range.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoResolutionFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">min_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_width: The min horizontal resolution.</span>
+<span class="sd">        :param max_width: The max horizontal resolution.</span>
+<span class="sd">        :param min_height: The min vertical resolution.</span>
+<span class="sd">        :param max_height: The max vertical resolution.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">=</span> <span class="n">min_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span> <span class="o">=</span> <span class="n">max_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">=</span> <span class="n">min_height</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span> <span class="o">=</span> <span class="n">max_height</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoResolutionFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> \
+                <span class="ow">and</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_height</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_height</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">video_width</span><span class="p">,</span> <span class="n">video_height</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(),</span> <span class="nb">dict</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="c1"># default to load the first stream</span>
+            <span class="n">video_stream</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="c1"># fail in loading video</span>
+            <span class="k">if</span> <span class="n">video_stream</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">sample</span>
+
+            <span class="n">video_width</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+            <span class="n">video_height</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+
+        <span class="c1"># get video resolutions</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">video_width</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_height</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">video_height</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoResolutionFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">ws</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span><span class="p">]</span>
+        <span class="n">hs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_height</span><span class="p">]</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">&lt;=</span> <span class="n">w</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span>
+            <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">&lt;=</span> <span class="n">h</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span>
+            <span class="k">for</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">ws</span><span class="p">,</span> <span class="n">hs</span><span class="p">)</span>
+        <span class="p">])</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html b/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html
new file mode 100644
index 000000000..1a9bbdcb9
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html
@@ -0,0 +1,235 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_tagging_from_frames_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_tagging_from_frames_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_tagging_from_frames_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">NON_STATS_FILTERS</span><span class="p">,</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span>
+                       <span class="n">Filter</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..mapper.video_tagging_from_frames_mapper</span><span class="w"> </span><span class="kn">import</span> \
+    <span class="n">VideoTaggingFromFramesMapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_tagging_from_frames_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoTaggingFromFramesFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">[docs]</a>
+<span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoTaggingFromFramesFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples whose videos contain the given tags.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoTaggingFromFramesFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">tags</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;people&#39;</span><span class="p">],</span>
+                 <span class="n">contain</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">tag_field_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_frame_tags</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tags: a tag list to shift the videos, total tags can be found</span>
+<span class="sd">            in https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt # noqa: E501</span>
+<span class="sd">        :param contain: require the videos containing &#39;any&#39; or &#39;all&#39; tags.</span>
+<span class="sd">            When tags equal to [], &#39;all&#39; keeps all samples, &#39;any&#39; keeps no</span>
+<span class="sd">            sample.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos. Should be one of</span>
+<span class="sd">            [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number of which depends</span>
+<span class="sd">            on the duration of the video) and the latter one extract specified</span>
+<span class="sd">            number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param tag_field_name: the key name to store the tags in the meta</span>
+<span class="sd">            field. It&#39;s &quot;video_frame_tags&quot; in default.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;9GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">contain</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;the containing type [</span><span class="si">{</span><span class="n">contain</span><span class="si">}</span><span class="s1">] is not &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;supported. Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method [</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;supported. Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tags</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="n">tag</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">tag</span> <span class="ow">in</span> <span class="n">tags</span><span class="p">])</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">contain_any</span> <span class="o">=</span> <span class="p">(</span><span class="n">contain</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="o">=</span> <span class="n">tag_field_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tagging_producer</span> <span class="o">=</span> <span class="n">VideoTaggingFromFramesMapper</span><span class="p">(</span>
+            <span class="n">frame_sampling_method</span><span class="o">=</span><span class="n">frame_sampling_method</span><span class="p">,</span>
+            <span class="n">frame_num</span><span class="o">=</span><span class="n">frame_num</span><span class="p">,</span>
+            <span class="n">accelerator</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span><span class="p">,</span>
+            <span class="n">tag_field_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoTaggingFromFramesFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+        <span class="n">sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tagging_producer</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="n">context</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoTaggingFromFramesFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">video_tags</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">video_tags</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">words</span> <span class="ow">in</span> <span class="n">video_tags</span><span class="p">:</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="n">w</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">w</span> <span class="ow">in</span> <span class="n">words</span><span class="p">])</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">contain_any</span><span class="p">:</span>
+                <span class="n">keep_bools</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">bool</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tags</span> <span class="o">&amp;</span> <span class="n">words</span><span class="p">))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">keep_bools</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tags</span><span class="o">.</span><span class="n">issubset</span><span class="p">(</span><span class="n">words</span><span class="p">))</span>
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">keep_bools</span><span class="p">)</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/video_watermark_filter.html b/_modules/data_juicer/ops/filter/video_watermark_filter.html
new file mode 100644
index 000000000..2ebcc1a39
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/video_watermark_filter.html
@@ -0,0 +1,300 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.video_watermark_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.video_watermark_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.video_watermark_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_SAMPLED_FRAMES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_watermark_filter&#39;</span>
+
+
+<div class="viewcode-block" id="VideoWatermarkFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoWatermarkFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Filter to keep samples whose videos have no watermark with high</span>
+<span class="sd">        probability.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoWatermarkFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_watermark_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;amrul-hzz/watermark_detector&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">prob_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">reduce_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;avg&#39;</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_watermark_model: watermark detection model name on</span>
+<span class="sd">            huggingface.</span>
+<span class="sd">        :param prob_threshold: the predicted watermark probability threshold</span>
+<span class="sd">            for samples. range from 0 to 1. Samples with watermark probability</span>
+<span class="sd">            less than this threshold will be kept.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos.</span>
+<span class="sd">            Should be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number of which depends</span>
+<span class="sd">            on the duration of the video) and the latter one extract specified</span>
+<span class="sd">            number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param reduce_mode: reduce mode for multiple sampled video frames.</span>
+<span class="sd">            &#39;avg&#39;: Take the average of multiple values</span>
+<span class="sd">            &#39;max&#39;: Take the max of multiple values</span>
+<span class="sd">            &#39;min&#39;: Take the min of multiple values</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all videos. &#39;any&#39;: keep this sample if any videos meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all videos meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prob_threshold</span> <span class="o">=</span> <span class="n">prob_threshold</span>
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">reduce_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="s1">&#39;max&#39;</span><span class="p">,</span> <span class="s1">&#39;min&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Reduce mode [</span><span class="si">{</span><span class="n">reduce_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;avg&quot;, &quot;max&quot;, &quot;min&quot;].&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">any_or_all</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;any&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">any_or_all</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;any&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any</span> <span class="o">=</span> <span class="p">(</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_watermark_model</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">=</span> <span class="n">reduce_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">&#39;</span> <span class="o">+</span> \
+            <span class="p">(</span><span class="s1">&#39;&#39;</span> <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span>
+             <span class="k">else</span> <span class="sa">f</span><span class="s1">&#39;-</span><span class="si">{</span><span class="n">frame_num</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoWatermarkFilter.compute_stats_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s computed already</span>
+        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+                <span class="p">[],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">watermark_probs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">videos</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">sampled_frames_key</span> <span class="o">=</span> <span class="n">video_key</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampled_frames_key_suffix</span>
+
+            <span class="c1"># extract frame images</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">sampled_frames_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+                <span class="n">frames</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                        <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+
+                <span class="c1"># store the sampled frames in the context</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">sampled_frames_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">frames</span>
+
+            <span class="n">frame_images</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">frame_images</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">frame_images</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">inputs</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span>
+                <span class="n">logits</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">logits</span>
+                <span class="n">cur_probs</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">probs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">probs</span> <span class="ow">in</span> <span class="n">torch</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="n">cur_probs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">(</span><span class="n">cur_probs</span><span class="p">)</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;avg&#39;</span><span class="p">:</span>
+                    <span class="n">cur_prob</span> <span class="o">=</span> <span class="n">cur_probs</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">reduce_mode</span> <span class="o">==</span> <span class="s1">&#39;max&#39;</span><span class="p">:</span>
+                    <span class="n">cur_prob</span> <span class="o">=</span> <span class="n">cur_probs</span><span class="o">.</span><span class="n">max</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">cur_prob</span> <span class="o">=</span> <span class="n">cur_probs</span><span class="o">.</span><span class="n">min</span><span class="p">()</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">cur_prob</span> <span class="o">=</span> <span class="mf">0.0</span>
+            <span class="n">watermark_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">cur_prob</span><span class="p">))</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span><span class="p">]</span> <span class="o">=</span> <span class="n">watermark_probs</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+
+
+<div class="viewcode-block" id="VideoWatermarkFilter.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">itm_probs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_probs</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+
+        <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">itm_prob</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">prob_threshold</span> <span class="k">for</span> <span class="n">itm_prob</span> <span class="ow">in</span> <span class="n">itm_probs</span><span class="p">])</span>
+
+        <span class="c1"># different strategies</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">any</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">keep_bools</span><span class="o">.</span><span class="n">all</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/word_repetition_filter.html b/_modules/data_juicer/ops/filter/word_repetition_filter.html
new file mode 100644
index 000000000..76af6d50d
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/word_repetition_filter.html
@@ -0,0 +1,245 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.word_repetition_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.word_repetition_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
+                      <span class="n">words_refinement</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_WORDS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;word_repetition_filter&#39;</span>
+
+
+<div class="viewcode-block" id="WordRepetitionFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">WordRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with word-level n-gram repetition ratio within a</span>
+<span class="sd">    specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="WordRepetitionFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+                 <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: sample in which language.</span>
+<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
+<span class="sd">        :param rep_len: Repetition length for word-level n-gram.</span>
+<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their word-level n-gram repetition ratio is</span>
+<span class="sd">            below this parameter.</span>
+<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
+<span class="sd">            be filtered if their word-level n-gram repetition ratio</span>
+<span class="sd">            exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">rep_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                           <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="WordRepetitionFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="c1"># try to get words from context</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                    <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">],</span>
+                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span>
+                    <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+
+            <span class="c1"># try to get refined words from context</span>
+            <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">-&#39;</span> \
+                                <span class="sa">f</span><span class="s1">&#39;True-SPECIAL_CHARS-False-[2]-&#39;</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span>
+                                         <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                         <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+            <span class="n">word_ngrams</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="p">]</span>
+            <span class="n">freq_word_ngrams</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">word_ngram</span> <span class="ow">in</span> <span class="n">word_ngrams</span><span class="p">:</span>
+                <span class="n">freq_word_ngrams</span><span class="p">[</span><span class="n">word_ngram</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">freq_word_ngrams</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">word_ngram</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">continue</span>
+
+            <span class="n">freq_word_ngrams</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+            <span class="n">rep_more_than_one</span> <span class="o">=</span> <span class="p">[</span><span class="n">freq</span> <span class="k">for</span> <span class="n">freq</span> <span class="ow">in</span> <span class="n">freq_word_ngrams</span> <span class="k">if</span> <span class="n">freq</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">]</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="nb">sum</span><span class="p">(</span><span class="n">rep_more_than_one</span><span class="p">)</span> <span class="o">/</span>
+                <span class="nb">sum</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">))</span> <span class="k">if</span> <span class="nb">sum</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="WordRepetitionFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span>
+                <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/words_num_filter.html b/_modules/data_juicer/ops/filter/words_num_filter.html
new file mode 100644
index 000000000..62bbfc821
--- /dev/null
+++ b/_modules/data_juicer/ops/filter/words_num_filter.html
@@ -0,0 +1,209 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.filter.words_num_filter &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter.words_num_filter</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.filter.words_num_filter</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span><span class="p">,</span> <span class="n">StatsKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
+                      <span class="n">words_refinement</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">INTER_WORDS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;words_num_filter&#39;</span>
+
+
+<div class="viewcode-block" id="WordsNumFilter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">WordsNumFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total words number within a specific</span>
+<span class="sd">    range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="WordsNumFilter.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">min_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">max_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: sample in which language.</span>
+<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
+<span class="sd">        :param min_num: The min filter word number in this op, samples</span>
+<span class="sd">            will be filtered if their word number is below this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param max_num: The max filter word number in this op, samples</span>
+<span class="sd">            will be filtered if their word number exceeds this</span>
+<span class="sd">            parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">=</span> <span class="n">min_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="o">=</span> <span class="n">max_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                           <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="WordsNumFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
+        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">stat</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples_stats</span><span class="p">):</span>
+            <span class="c1"># check if it&#39;s computed already</span>
+            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span> <span class="ow">in</span> <span class="n">stat</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">]:</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                    <span class="n">samples_list</span><span class="p">[</span><span class="n">idx</span><span class="p">],</span>
+                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span>
+                    <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">idx</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
+            <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
+            <span class="n">samples_stats</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="WordsNumFilter.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">&lt;=</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span>
+                <span class="n">max_num</span><span class="p">,</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># single sample for ray filter</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">&lt;=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
+                    <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="kc">False</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/grouper/key_value_grouper.html b/_modules/data_juicer/ops/grouper/key_value_grouper.html
new file mode 100644
index 000000000..4f7f25249
--- /dev/null
+++ b/_modules/data_juicer/ops/grouper/key_value_grouper.html
@@ -0,0 +1,169 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.grouper.key_value_grouper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.grouper.key_value_grouper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.grouper.key_value_grouper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">dict_to_hash</span><span class="p">,</span> <span class="n">nested_access</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Grouper</span><span class="p">,</span> <span class="n">convert_list_dict_to_dict_list</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">.naive_grouper</span><span class="w"> </span><span class="kn">import</span> <span class="n">NaiveGrouper</span>
+
+
+<div class="viewcode-block" id="KeyValueGrouper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;key_value_grouper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">KeyValueGrouper</span><span class="p">(</span><span class="n">Grouper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Group samples to batched samples according values in given keys. &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="KeyValueGrouper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">group_by_keys</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param group_by_keys: group samples according values in the keys.</span>
+<span class="sd">            Support for nested keys such as &quot;__dj__stats__.text_len&quot;.</span>
+<span class="sd">            It is [self.text_key] in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">group_by_keys</span> <span class="o">=</span> <span class="n">group_by_keys</span> <span class="ow">or</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">naive_grouper</span> <span class="o">=</span> <span class="n">NaiveGrouper</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="KeyValueGrouper.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">sample_map</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">sample</span> <span class="ow">in</span> <span class="n">dataset</span><span class="p">:</span>
+            <span class="n">cur_dict</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_by_keys</span><span class="p">:</span>
+                <span class="n">cur_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">nested_access</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
+            <span class="n">sample_key</span> <span class="o">=</span> <span class="n">dict_to_hash</span><span class="p">(</span><span class="n">cur_dict</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">sample_key</span> <span class="ow">in</span> <span class="n">sample_map</span><span class="p">:</span>
+                <span class="n">sample_map</span><span class="p">[</span><span class="n">sample_key</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sample_map</span><span class="p">[</span><span class="n">sample_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">sample</span><span class="p">]</span>
+
+        <span class="n">batched_samples</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">convert_list_dict_to_dict_list</span><span class="p">(</span><span class="n">sample_map</span><span class="p">[</span><span class="n">k</span><span class="p">])</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">sample_map</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">batched_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/grouper/naive_grouper.html b/_modules/data_juicer/ops/grouper/naive_grouper.html
new file mode 100644
index 000000000..8aafb31dd
--- /dev/null
+++ b/_modules/data_juicer/ops/grouper/naive_grouper.html
@@ -0,0 +1,142 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.grouper.naive_grouper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.grouper.naive_grouper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.grouper.naive_grouper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Grouper</span><span class="p">,</span> <span class="n">convert_list_dict_to_dict_list</span>
+
+
+<div class="viewcode-block" id="NaiveGrouper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;naive_grouper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">NaiveGrouper</span><span class="p">(</span><span class="n">Grouper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Group all samples to one batched sample. &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="NaiveGrouper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="NaiveGrouper.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">batched_sample</span> <span class="o">=</span> <span class="n">convert_list_dict_to_dict_list</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="p">[</span><span class="n">batched_sample</span><span class="p">]</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/grouper/naive_reverse_grouper.html b/_modules/data_juicer/ops/grouper/naive_reverse_grouper.html
new file mode 100644
index 000000000..5ac94746f
--- /dev/null
+++ b/_modules/data_juicer/ops/grouper/naive_reverse_grouper.html
@@ -0,0 +1,166 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.grouper.naive_reverse_grouper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.grouper.naive_reverse_grouper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.grouper.naive_reverse_grouper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">json</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">create_directory_if_not_exists</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Grouper</span><span class="p">,</span> <span class="n">convert_dict_list_to_list_dict</span>
+
+
+<div class="viewcode-block" id="NaiveReverseGrouper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;naive_reverse_grouper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">NaiveReverseGrouper</span><span class="p">(</span><span class="n">Grouper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Split batched samples to samples. &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="NaiveReverseGrouper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_meta_export_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param batch_meta_export_path: the path to export the batch meta.</span>
+<span class="sd">            Just drop the batch meta if it is None.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">batch_meta_export_path</span> <span class="o">=</span> <span class="n">batch_meta_export_path</span></div>
+
+
+<div class="viewcode-block" id="NaiveReverseGrouper.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">batch_metas</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">sample</span> <span class="ow">in</span> <span class="n">dataset</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+                <span class="n">batch_metas</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span><span class="p">])</span>
+                <span class="n">sample</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="n">k</span><span class="p">:</span> <span class="n">sample</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">sample</span> <span class="k">if</span> <span class="n">k</span> <span class="o">!=</span> <span class="n">Fields</span><span class="o">.</span><span class="n">batch_meta</span>
+                <span class="p">}</span>
+            <span class="n">samples</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">convert_dict_list_to_list_dict</span><span class="p">(</span><span class="n">sample</span><span class="p">))</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">batch_meta_export_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">create_directory_if_not_exists</span><span class="p">(</span>
+                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_meta_export_path</span><span class="p">))</span>
+            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_meta_export_path</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">batch_meta</span> <span class="ow">in</span> <span class="n">batch_metas</span><span class="p">:</span>
+                    <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">batch_meta</span><span class="p">,</span> <span class="n">ensure_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span> <span class="o">+</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/load.html b/_modules/data_juicer/ops/load.html
new file mode 100644
index 000000000..87b4f15a7
--- /dev/null
+++ b/_modules/data_juicer/ops/load.html
@@ -0,0 +1,135 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.load &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.load</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.load</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+
+
+<div class="viewcode-block" id="load_ops">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.load.load_ops">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_ops</span><span class="p">(</span><span class="n">process_list</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Load op list according to the process list from config file.</span>
+
+<span class="sd">    :param process_list: A process list. Each item is an op name and its</span>
+<span class="sd">        arguments.</span>
+<span class="sd">    :return: The op instance list.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">ops</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">new_process_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">process</span> <span class="ow">in</span> <span class="n">process_list</span><span class="p">:</span>
+        <span class="n">op_name</span><span class="p">,</span> <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">process</span><span class="o">.</span><span class="n">items</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="p">[</span><span class="n">op_name</span><span class="p">](</span><span class="o">**</span><span class="n">args</span><span class="p">))</span>
+        <span class="n">new_process_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">process</span><span class="p">)</span>
+
+    <span class="c1"># store the OP configs into each OP</span>
+    <span class="k">for</span> <span class="n">op_cfg</span><span class="p">,</span> <span class="n">op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">new_process_list</span><span class="p">,</span> <span class="n">ops</span><span class="p">):</span>
+        <span class="n">op</span><span class="o">.</span><span class="n">_op_cfg</span> <span class="o">=</span> <span class="n">op_cfg</span>
+
+    <span class="k">return</span> <span class="n">ops</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html b/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html
new file mode 100644
index 000000000..b7ac8b113
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html
@@ -0,0 +1,204 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+    <span class="n">ffmpeg</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ffmpeg&#39;</span><span class="p">,</span> <span class="s1">&#39;ffmpeg&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;audio_ffmpeg_wrapped_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="AudioFFmpegWrappedMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">AudioFFmpegWrappedMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Simple wrapper for FFmpeg audio filters.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AudioFFmpegWrappedMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">filter_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">filter_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">global_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">capture_stderr</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">overwrite_output</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param filter_name: ffmpeg audio filter name.</span>
+<span class="sd">        :param filter_kwargs: keyword-arguments passed to ffmpeg filter.</span>
+<span class="sd">        :param global_args: list-arguments passed to ffmpeg command-line.</span>
+<span class="sd">        :param capture_stderr: whether to capture stderr.</span>
+<span class="sd">        :param overwrite_output: whether to overwrite output file.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span> <span class="o">=</span> <span class="n">filter_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">filter_kwargs</span> <span class="o">=</span> <span class="n">filter_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">global_args</span> <span class="o">=</span> <span class="n">global_args</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">capture_stderr</span> <span class="o">=</span> <span class="n">capture_stderr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">overwrite_output</span> <span class="o">=</span> <span class="n">overwrite_output</span></div>
+
+
+<div class="viewcode-block" id="AudioFFmpegWrappedMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no audio in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">loaded_audio_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span>
+        <span class="n">processed</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">audio_key</span> <span class="ow">in</span> <span class="n">loaded_audio_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">audio_key</span> <span class="ow">in</span> <span class="n">processed</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">output_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">audio_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                           <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="n">stream</span> <span class="o">=</span> <span class="p">(</span><span class="n">ffmpeg</span><span class="o">.</span><span class="n">input</span><span class="p">(</span><span class="n">audio_key</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">filter_kwargs</span><span class="p">)</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">output_key</span><span class="p">))</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">global_args</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">global_args</span><span class="p">(</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">global_args</span><span class="p">)</span>
+            <span class="n">stream</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">capture_stderr</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">capture_stderr</span><span class="p">,</span>
+                       <span class="n">overwrite_output</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">overwrite_output</span><span class="p">)</span>
+            <span class="n">processed</span><span class="p">[</span><span class="n">audio_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">output_key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_audio_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">processed</span><span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">processed</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_audio_keys</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html
new file mode 100644
index 000000000..59bb797db
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html
@@ -0,0 +1,248 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.calibrate_qa_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.calibrate_qa_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;calibrate_qa_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="CalibrateQAMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CalibrateQAMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to calibrate question-answer pairs based on reference text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># avoid leading whitespace</span>
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;请根据提供的【参考信息】对【问题】和【回答】进行校准，使其更加详细、准确。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;按照以下格式输出：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;校准后的问题</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;【回答】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;校准后的回答&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">{reference}</span><span class="se">\n</span><span class="si">{qa_pair}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_REFERENCE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;【参考信息】</span><span class="se">\n</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_QA_PAIR_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="si">{}</span><span class="se">\n</span><span class="s1">【回答】</span><span class="se">\n</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;【问题】\s*(.*?)\s*【回答】\s*(.*)&#39;</span>
+
+<div class="viewcode-block" id="CalibrateQAMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">reference_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">qa_pair_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the calibration task.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param reference_template: Template for formatting the reference text.</span>
+<span class="sd">        :param qa_pair_template: Template for formatting question-answer pairs.</span>
+<span class="sd">        :param output_pattern: Regular expression for parsing model output.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reference_template</span> <span class="o">=</span> <span class="n">reference_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_REFERENCE_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span> <span class="o">=</span> <span class="n">qa_pair_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QA_PAIR_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span></div>
+
+
+<div class="viewcode-block" id="CalibrateQAMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">reference</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">reference_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="n">qa_pair</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
+                                               <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">])</span>
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">reference</span><span class="o">=</span><span class="n">reference</span><span class="p">,</span>
+                                                  <span class="n">qa_pair</span><span class="o">=</span><span class="n">qa_pair</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="CalibrateQAMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="CalibrateQAMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="p">}]</span>
+        <span class="n">parsed_q</span><span class="p">,</span> <span class="n">parsed_a</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">parsed_q</span><span class="p">,</span> <span class="n">parsed_a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">parsed_q</span> <span class="ow">or</span> <span class="n">parsed_a</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">parsed_q</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_q</span>
+        <span class="k">if</span> <span class="n">parsed_a</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_a</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html
new file mode 100644
index 000000000..497397465
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html
@@ -0,0 +1,133 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.calibrate_query_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.calibrate_query_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.calibrate_query_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.mapper.calibrate_qa_mapper</span><span class="w"> </span><span class="kn">import</span> <span class="n">CalibrateQAMapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;calibrate_query_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="CalibrateQueryMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CalibrateQueryMapper</span><span class="p">(</span><span class="n">CalibrateQAMapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to calibrate query in question-answer pairs based on reference text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;请根据提供的【参考信息】对问答对中的【问题】进行校准，</span><span class="se">\</span>
+<span class="s1">        使其更加详细、准确，且仍可以由原答案回答。只输出校准后的问题，不要输出多余内容。&#39;</span>
+
+<div class="viewcode-block" id="CalibrateQueryMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="kc">None</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html
new file mode 100644
index 000000000..4535ea770
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html
@@ -0,0 +1,133 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.calibrate_response_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.calibrate_response_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.calibrate_response_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.mapper.calibrate_qa_mapper</span><span class="w"> </span><span class="kn">import</span> <span class="n">CalibrateQAMapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;calibrate_response_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="CalibrateResponseMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CalibrateResponseMapper</span><span class="p">(</span><span class="n">CalibrateQAMapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to calibrate response in question-answer pairs based on reference text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>   <span class="c1"># noqa: E501</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;请根据提供的【参考信息】对问答对中的【回答】进行校准，</span><span class="se">\</span>
+<span class="s1">        使其更加详细、准确，且仍可以回答原问题。只输出校准后的回答，不要输出多余内容。&#39;</span>
+
+<div class="viewcode-block" id="CalibrateResponseMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html b/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html
new file mode 100644
index 000000000..6128084c5
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html
@@ -0,0 +1,213 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.chinese_convert_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.chinese_convert_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.chinese_convert_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">opencc</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;opencc&#39;</span><span class="p">,</span> <span class="s1">&#39;opencc&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;chinese_convert_mapper&#39;</span>
+
+<span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="kc">None</span>
+
+
+<div class="viewcode-block" id="prepare_converter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_converter</span><span class="p">(</span><span class="n">mode</span><span class="p">):</span>
+    <span class="n">mode_path</span> <span class="o">=</span> <span class="n">mode</span> <span class="o">+</span> <span class="s1">&#39;.json&#39;</span>
+    <span class="k">global</span> <span class="n">OPENCC_CONVERTER</span>
+    <span class="k">if</span> <span class="n">OPENCC_CONVERTER</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># empty converter</span>
+        <span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="n">opencc</span><span class="o">.</span><span class="n">OpenCC</span><span class="p">(</span><span class="n">mode_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">OPENCC_CONVERTER</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">mode_path</span><span class="p">):</span>
+        <span class="c1"># the config is actually a config path</span>
+        <span class="c1"># update and get a new converter with specified mode</span>
+        <span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="n">opencc</span><span class="o">.</span><span class="n">OpenCC</span><span class="p">(</span><span class="n">mode_path</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="ChineseConvertMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ChineseConvertMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to convert Chinese between Traditional Chinese, Simplified Chinese</span>
+<span class="sd">    and Japanese Kanji.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ChineseConvertMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;s2t&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param mode: Choose the mode to convert Chinese:</span>
+
+<span class="sd">            s2t: Simplified Chinese to Traditional Chinese,</span>
+
+<span class="sd">            t2s: Traditional Chinese to Simplified Chinese,</span>
+
+<span class="sd">            s2tw: Simplified Chinese to Traditional Chinese (Taiwan Standard),</span>
+
+<span class="sd">            tw2s: Traditional Chinese (Taiwan Standard) to Simplified Chinese,</span>
+
+<span class="sd">            s2hk: Simplified Chinese to Traditional Chinese</span>
+<span class="sd">            (Hong Kong variant),</span>
+
+<span class="sd">            hk2s: Traditional Chinese (Hong Kong variant) to Simplified</span>
+<span class="sd">            Chinese,</span>
+
+<span class="sd">            s2twp: Simplified Chinese to Traditional Chinese (Taiwan Standard)</span>
+<span class="sd">            with Taiwanese idiom,</span>
+
+<span class="sd">            tw2sp: Traditional Chinese (Taiwan Standard) to Simplified Chinese</span>
+<span class="sd">            with Mainland Chinese idiom,</span>
+
+<span class="sd">            t2tw: Traditional Chinese to Traditional Chinese (Taiwan Standard),</span>
+
+<span class="sd">            tw2t: Traditional Chinese (Taiwan standard) to Traditional Chinese,</span>
+
+<span class="sd">            hk2t: Traditional Chinese (Hong Kong variant) to Traditional</span>
+<span class="sd">            Chinese,</span>
+
+<span class="sd">            t2hk: Traditional Chinese to Traditional Chinese</span>
+<span class="sd">            (Hong Kong variant),</span>
+
+<span class="sd">            t2jp: Traditional Chinese Characters (Kyūjitai) to New Japanese</span>
+<span class="sd">            Kanji,</span>
+
+<span class="sd">            jp2t: New Japanese Kanji (Shinjitai) to Traditional Chinese</span>
+<span class="sd">            Characters,</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">mode_list</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="s1">&#39;s2t&#39;</span><span class="p">,</span> <span class="s1">&#39;t2s&#39;</span><span class="p">,</span> <span class="s1">&#39;s2tw&#39;</span><span class="p">,</span> <span class="s1">&#39;tw2s&#39;</span><span class="p">,</span> <span class="s1">&#39;s2hk&#39;</span><span class="p">,</span> <span class="s1">&#39;hk2s&#39;</span><span class="p">,</span> <span class="s1">&#39;s2twp&#39;</span><span class="p">,</span> <span class="s1">&#39;tw2sp&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;t2tw&#39;</span><span class="p">,</span> <span class="s1">&#39;tw2t&#39;</span><span class="p">,</span> <span class="s1">&#39;hk2t&#39;</span><span class="p">,</span> <span class="s1">&#39;t2hk&#39;</span><span class="p">,</span> <span class="s1">&#39;t2jp&#39;</span><span class="p">,</span> <span class="s1">&#39;jp2t&#39;</span>
+        <span class="p">]</span>
+        <span class="k">assert</span> <span class="n">mode</span> <span class="ow">in</span> <span class="n">mode_list</span><span class="p">,</span> <span class="s1">&#39;Please make sure mode is one of </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">mode_list</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mode</span> <span class="o">=</span> <span class="n">mode</span>
+        <span class="n">prepare_converter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ChineseConvertMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">prepare_converter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">)</span>
+
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">OPENCC_CONVERTER</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
new file mode 100644
index 000000000..bf14a6926
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
@@ -0,0 +1,180 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.clean_copyright_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_copyright_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/tree/rp_v1/</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="CleanCopyrightMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_copyright_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CleanCopyrightMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean copyright comments at the beginning of the text</span>
+<span class="sd">    samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CleanCopyrightMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;/</span><span class="se">\\</span><span class="s1">*[^*]*</span><span class="se">\\</span><span class="s1">*+(?:[^/*][^*]*</span><span class="se">\\</span><span class="s1">*+)*/&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;copyright&#39;</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">IGNORECASE</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">r</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pat</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">r</span><span class="p">:</span>
+            <span class="c1"># found one, now see if it contains &quot;copyright&quot;, if so strip it</span>
+            <span class="n">span</span> <span class="o">=</span> <span class="n">r</span><span class="o">.</span><span class="n">span</span><span class="p">()</span>
+            <span class="n">sub</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">span</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">span</span><span class="p">[</span><span class="mi">1</span><span class="p">]]</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">sub</span><span class="p">):</span>
+                <span class="c1"># cut it</span>
+                <span class="n">sample</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[:</span><span class="n">span</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span> <span class="o">+</span> <span class="n">sample</span><span class="p">[</span><span class="n">span</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="n">skip</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># Greedy replace any file that begins with comment block, most</span>
+        <span class="c1"># are copyright headers</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)):</span>
+            <span class="k">if</span> <span class="p">(</span><span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;//&#39;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;#&#39;</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;--&#39;</span><span class="p">)</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]):</span>
+                <span class="n">skip</span> <span class="o">=</span> <span class="n">skip</span> <span class="o">+</span> <span class="mi">1</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">break</span>
+
+        <span class="k">if</span> <span class="n">skip</span><span class="p">:</span>
+            <span class="c1"># we skipped, consume it</span>
+            <span class="n">sample</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">lines</span><span class="p">[</span><span class="n">skip</span><span class="p">:])</span>
+        <span class="k">return</span> <span class="n">sample</span>
+
+<div class="viewcode-block" id="CleanCopyrightMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_email_mapper.html b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
new file mode 100644
index 000000000..7e169ec72
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
@@ -0,0 +1,166 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.clean_email_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_email_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="CleanEmailMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_email_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CleanEmailMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean email in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CleanEmailMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param pattern: regular expression pattern to search for within text.</span>
+<span class="sd">        :param repl: replacement string, default is empty string.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;[A-Za-z0-9.\-+_]+@[a-z0-9.\-+_]+\.[a-z]+&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span>
+            <span class="k">if</span> <span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">pattern</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">2</span><span class="p">)</span> <span class="ow">and</span>
+                <span class="p">(</span><span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;r&#39;&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;&#39;&quot;</span><span class="p">)</span>
+                 <span class="ow">or</span> <span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;r&quot;&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;&quot;&#39;</span><span class="p">))):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span><span class="p">[</span><span class="mi">2</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">repl</span> <span class="o">=</span> <span class="n">repl</span></div>
+
+
+<div class="viewcode-block" id="CleanEmailMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                                 <span class="n">repl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">,</span>
+                                                 <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                                                 <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_html_mapper.html b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
new file mode 100644
index 000000000..5e0198388
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
@@ -0,0 +1,160 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.clean_html_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_html_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/tree/rp_v1/</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">selectolax</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;selectolax&#39;</span><span class="p">,</span> <span class="s1">&#39;selectolax&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;clean_html_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="CleanHtmlMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CleanHtmlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean html code in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CleanHtmlMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CleanHtmlMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_clean_html</span><span class="p">(</span><span class="n">raw_html</span><span class="p">):</span>
+            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;li&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">*&#39;</span><span class="p">)</span>
+            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;/li&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;ol&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">*&#39;</span><span class="p">)</span>
+            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;/ol&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+            <span class="n">parser</span> <span class="o">=</span> <span class="n">selectolax</span><span class="o">.</span><span class="n">parser</span><span class="o">.</span><span class="n">HTMLParser</span><span class="p">(</span><span class="n">raw_html</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">parser</span><span class="o">.</span><span class="n">text</span><span class="p">()</span>
+
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">_clean_html</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
new file mode 100644
index 000000000..13faf1691
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
@@ -0,0 +1,169 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.clean_ip_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_ip_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="CleanIpMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_ip_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CleanIpMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean ipv4 and ipv6 address in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CleanIpMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param pattern: regular expression pattern to search for within text.</span>
+<span class="sd">        :param repl: replacement string, default is empty string.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?:(?:1[0-9][0-9]\.)|(?:2[0-4][0-9]\.)|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5]\.)|(?:[1-9][0-9]\.)|(?:[0-9]\.))&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="si">{3}</span><span class="s1">(?:(?:1[0-9][0-9])|(?:2[0-4][0-9])|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5])|(?:[1-9][0-9])|(?:[0-9]))|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;([\da-fA-F]{1,4}:)</span><span class="si">{7}</span><span class="s1">[\da-fA-F]{1,4}&#39;</span>  <span class="c1"># ipv6</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span>
+            <span class="k">if</span> <span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">pattern</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">2</span><span class="p">)</span> <span class="ow">and</span>
+                <span class="p">(</span><span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;r&#39;&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;&#39;&quot;</span><span class="p">)</span>
+                 <span class="ow">or</span> <span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;r&quot;&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;&quot;&#39;</span><span class="p">))):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span><span class="p">[</span><span class="mi">2</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">repl</span> <span class="o">=</span> <span class="n">repl</span></div>
+
+
+<div class="viewcode-block" id="CleanIpMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                                 <span class="n">repl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">,</span>
+                                                 <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                                                 <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_links_mapper.html b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
new file mode 100644
index 000000000..da200e263
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
@@ -0,0 +1,176 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.clean_links_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_links_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/kallewesterling/CleanText/</span>
+<span class="c1"># --------------------------------------------------------</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="CleanLinksMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_links_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">CleanLinksMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean links like http/https/ftp in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="CleanLinksMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param pattern: regular expression pattern to search for within text.</span>
+<span class="sd">        :param repl: replacement string, default is empty string.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?i)\b(&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:[a-z][\w-]+:(?:\/{1,3}|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[a-z0-9%])|www\d{0,3}[.]|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[a-z0-9.\-]+[.][a-z]{2,4}\/)&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:[^\s()&lt;&gt;]+|\(([^\s()&lt;&gt;]+|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(\([^\s()&lt;&gt;]+\)))*\))&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;+(?:\(([^\s()&lt;&gt;]+|(\([^\s()&lt;&gt;]+\)))*\)|&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[^\s`!()\[\]</span><span class="si">{}</span><span class="s1">;:</span><span class="se">\&#39;</span><span class="s1">\&quot;.,&lt;&gt;?«»“”‘’])&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span>
+            <span class="k">if</span> <span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">pattern</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">2</span><span class="p">)</span> <span class="ow">and</span>
+                <span class="p">(</span><span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;r&#39;&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;&#39;&quot;</span><span class="p">)</span>
+                 <span class="ow">or</span> <span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;r&quot;&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;&quot;&#39;</span><span class="p">))):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span><span class="p">[</span><span class="mi">2</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">repl</span> <span class="o">=</span> <span class="n">repl</span></div>
+
+
+<div class="viewcode-block" id="CleanLinksMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
+                <span class="k">continue</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                                 <span class="n">repl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">,</span>
+                                                 <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                                                 <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html b/_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html
new file mode 100644
index 000000000..966c3a82f
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html
@@ -0,0 +1,350 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.dialog_intent_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.dialog_intent_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.dialog_intent_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;dialog_intent_detection_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="DialogIntentDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DialogIntentDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate user&#39;s intent labels in dialog. Input from</span>
+<span class="sd">    history_key, query_key and response_key. Output lists of</span>
+<span class="sd">    labels and analysis for queries in the dialog.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;请判断用户和LLM多轮对话中用户的意图。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 需要先进行分析，然后列出用户所具有的意图，下面是一个样例，请模仿样例格式输出&#39;</span>
+        <span class="s1">&#39;。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;用户：你好，我最近对人工智能很感兴趣，能给我讲讲什么是机器学习吗？</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图分析：用户在请求信息，希望了解有关机器学习的基础知识。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图类别：信息查找</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;LLM：你好！当然可以。机器学习是一种人工智能方法，允许计算机通过数据自动改进和学习。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;用户：听起来很有趣，有没有推荐的入门书籍或资料？</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图分析：用户在请求建议，希望获取关于机器学习的入门资源。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图类别：请求建议</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;LLM：有很多不错的入门书籍和资源。一本常被推荐的书是《Python机器学习实践》（Python&#39;</span>
+        <span class="s1">&#39; Machine Learning），它涵盖了基础知识和一些实际案例。此外，您还可以参考Coursera&#39;</span>
+        <span class="s1">&#39;或edX上的在线课程，这些课程提供了系统的学习路径。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;用户：谢谢你的建议！我还想知道，学习机器学习需要什么样的数学基础？</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图分析：用户在寻求信息，希望了解学习机器学习所需的前提条件，特别是在数学方面。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图类别：信息查找</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;LLM：学习机器学习通常需要一定的数学基础，特别是线性代数、概率论和统计学。这些数学领&#39;</span>
+        <span class="s1">&#39;域帮助理解算法的工作原理和数据模式分析。如果您对这些主题不太熟悉，建议先从相关基础&#39;</span>
+        <span class="s1">&#39;书籍或在线资源开始学习。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;用户：明白了，我会先补习这些基础知识。再次感谢你的帮助！</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图分析：用户表达感谢，并表示计划付诸行动来补充所需的基础知识。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;意图类别：其他&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_QUERY_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;用户：</span><span class="si">{query}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_RESPONSE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;LLM：</span><span class="si">{response}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_CANDIDATES_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;备选意图类别：[</span><span class="si">{candidate_str}</span><span class="s1">]&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;意图分析：</span><span class="si">{analysis}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;意图类别：</span><span class="si">{labels}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;意图分析：(.*?)</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;意图类别：(.*?)($|</span><span class="se">\n</span><span class="s1">)&#39;</span>
+
+<div class="viewcode-block" id="DialogIntentDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">intent_candidates</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_round</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">labels_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_intent_labels</span><span class="p">,</span>
+                 <span class="n">analysis_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_intent_labels_analysis</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">query_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">candidate_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param intent_candidates: The output intent candidates. Use the</span>
+<span class="sd">            intent labels of the open domain if it is None.</span>
+<span class="sd">        :param max_round: The max num of round in the dialog to build the</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param labels_key: The key name in the meta field to store the</span>
+<span class="sd">            output labels. It is &#39;dialog_intent_labels&#39; in default.</span>
+<span class="sd">        :param analysis_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding analysis. It is &#39;dialog_intent_labels_analysis&#39;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param query_template: Template for query part to build the input</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param response_template: Template for response part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param candidate_template: Template for intent candidates to</span>
+<span class="sd">            build the input prompt.</span>
+<span class="sd">        :param analysis_template: Template for analysis part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param labels_template: Template for labels to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param analysis_pattern: Pattern to parse the return intent</span>
+<span class="sd">            analysis.</span>
+<span class="sd">        :param labels_pattern: Pattern to parse the return intent</span>
+<span class="sd">            labels.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">intent_candidates</span> <span class="o">=</span> <span class="n">intent_candidates</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">=</span> <span class="n">max_round</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="o">=</span> <span class="n">labels_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="o">=</span> <span class="n">analysis_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span> <span class="o">=</span> <span class="n">query_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QUERY_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_template</span> <span class="o">=</span> <span class="n">response_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RESPONSE_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span> <span class="o">=</span> <span class="n">candidate_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_CANDIDATES_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span> <span class="o">=</span> <span class="n">analysis_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span> <span class="o">=</span> <span class="n">labels_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span> <span class="o">=</span> <span class="n">analysis_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_PATTERN</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span> <span class="o">=</span> <span class="n">labels_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span></div>
+
+
+<div class="viewcode-block" id="DialogIntentDetectionMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">query</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">intent_candidates</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="n">candidate_str</span><span class="o">=</span><span class="s1">&#39;,&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">intent_candidates</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">+=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">*</span> <span class="mi">4</span><span class="p">:])</span>
+
+        <span class="n">input_prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="DialogIntentDetectionMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
+        <span class="n">analysis</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">analysis</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span></div>
+
+
+<div class="viewcode-block" id="DialogIntentDetectionMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">meta</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="ow">in</span> <span class="n">meta</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="ow">in</span> <span class="n">meta</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">analysis_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">labels_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">dialog</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="s1">&#39;&#39;</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">qa</span> <span class="ow">in</span> <span class="n">dialog</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">qa</span><span class="p">)</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span><span class="p">,</span>
+            <span class="p">},</span> <span class="p">{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">,</span>
+            <span class="p">}]</span>
+
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">response</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                    <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+            <span class="n">analysis_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span>
+            <span class="n">labels_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">labels</span><span class="p">)</span>
+
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">analysis</span><span class="o">=</span><span class="n">analysis</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">labels</span><span class="o">=</span><span class="n">labels</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">response</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels_list</span>
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">analysis_list</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html b/_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html
new file mode 100644
index 000000000..2a1045569
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html
@@ -0,0 +1,345 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.dialog_sentiment_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.dialog_sentiment_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.dialog_sentiment_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_detection_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="DialogSentimentDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DialogSentimentDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate user&#39;s sentiment labels in dialog. Input from</span>
+<span class="sd">    history_key, query_key and response_key. Output lists of</span>
+<span class="sd">    labels and analysis for queries in the dialog.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;请判断用户和LLM多轮对话中用户所具有的情绪。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 需要先进行分析，然后罗列用户所具有的情绪，下面是一个样例，请模仿样例格式输出&#39;</span>
+                             <span class="s1">&#39;。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：最近工作压力好大，我觉得整个人都快被压垮了。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感分析：用户的言语中透露出明显的压力和疲惫感，可能还夹杂着一些无助和焦虑。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感类别：压力、疲惫、无助、焦虑</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：听起来你真的承受了很多，面临这种情况确实不容易。有没有考虑过找一些放松的&#39;</span>
+                             <span class="s1">&#39;方式，比如听音乐或者散步来减轻压力呢？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：试过了，但是好像没什么效果，每天的事情都堆积如山。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感分析：用户感到无力解决现状，有挫败感，并且对尝试放松的方式失去信心。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感类别：无力、挫败</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：我理解你的感受，有时候压力积累到一定程度确实让人难以承受。或许你可以尝试&#39;</span>
+                             <span class="s1">&#39;规划一下时间，把任务分成小块来完成，这样可能会减少一些压力感。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：这个主意不错，我会试着让自己更有条理一些，谢谢你的建议。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感分析：用户对建议表现出认同和感激，同时展现出试图积极面对问题的态度。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情感类别：认同、感激、积极</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：不用谢，我很高兴能帮到你。记得给自己一些时间去适应新的计划，有任何需要&#39;</span>
+                             <span class="s1">&#39;随时可以跟我说哦！</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_QUERY_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;用户：</span><span class="si">{query}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_RESPONSE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;LLM：</span><span class="si">{response}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_CANDIDATES_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;备选情感类别：[</span><span class="si">{candidate_str}</span><span class="s1">]&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;情感分析：</span><span class="si">{analysis}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;情感类别：</span><span class="si">{labels}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;情感分析：(.*?)</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;情感类别：(.*?)($|</span><span class="se">\n</span><span class="s1">)&#39;</span>
+
+<div class="viewcode-block" id="DialogSentimentDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">sentiment_candidates</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_round</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">labels_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_sentiment_labels</span><span class="p">,</span>
+                 <span class="n">analysis_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_sentiment_labels_analysis</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">query_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">candidate_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param sentiment_candidates: The output sentiment candidates. Use</span>
+<span class="sd">            open-domain sentiment labels if it is None.</span>
+<span class="sd">        :param max_round: The max num of round in the dialog to build the</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param labels_key: The key name in the meta field to store the</span>
+<span class="sd">            output labels. It is &#39;dialog_sentiment_labels&#39; in default.</span>
+<span class="sd">        :param analysis_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding analysis. It is</span>
+<span class="sd">            &#39;dialog_sentiment_labels_analysis&#39; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param query_template: Template for query part to build the input</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param response_template: Template for response part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param candidate_template: Template for sentiment candidates to</span>
+<span class="sd">            build the input prompt.</span>
+<span class="sd">        :param analysis_template: Template for analysis part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param labels_template: Template for labels part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param analysis_pattern: Pattern to parse the return sentiment</span>
+<span class="sd">            analysis.</span>
+<span class="sd">        :param labels_pattern: Pattern to parse the return sentiment</span>
+<span class="sd">            labels.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sentiment_candidates</span> <span class="o">=</span> <span class="n">sentiment_candidates</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">=</span> <span class="n">max_round</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="o">=</span> <span class="n">labels_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="o">=</span> <span class="n">analysis_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span> <span class="o">=</span> <span class="n">query_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QUERY_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_template</span> <span class="o">=</span> <span class="n">response_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RESPONSE_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span> <span class="o">=</span> <span class="n">candidate_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_CANDIDATES_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span> <span class="o">=</span> <span class="n">analysis_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span> <span class="o">=</span> <span class="n">labels_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span> <span class="o">=</span> <span class="n">analysis_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_PATTERN</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span> <span class="o">=</span> <span class="n">labels_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentDetectionMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">query</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sentiment_candidates</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="n">candidate_str</span><span class="o">=</span><span class="s1">&#39;,&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">sentiment_candidates</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">+=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">*</span> <span class="mi">4</span><span class="p">:])</span>
+
+        <span class="n">input_prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentDetectionMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
+        <span class="n">analysis</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">analysis</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentDetectionMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">meta</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="ow">in</span> <span class="n">meta</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="ow">in</span> <span class="n">meta</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">analysis_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">labels_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">dialog</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="s1">&#39;&#39;</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">qa</span> <span class="ow">in</span> <span class="n">dialog</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">qa</span><span class="p">)</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span><span class="p">,</span>
+            <span class="p">},</span> <span class="p">{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">,</span>
+            <span class="p">}]</span>
+
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">response</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                    <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+            <span class="n">analysis_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span>
+            <span class="n">labels_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">labels</span><span class="p">)</span>
+
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">analysis</span><span class="o">=</span><span class="n">analysis</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">labels</span><span class="o">=</span><span class="n">labels</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">response</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels_list</span>
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">analysis_list</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html b/_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html
new file mode 100644
index 000000000..6ab08e214
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html
@@ -0,0 +1,345 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.dialog_sentiment_intensity_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.dialog_sentiment_intensity_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_intensity_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="DialogSentimentIntensityMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DialogSentimentIntensityMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to predict user&#39;s sentiment intensity (from -5 to 5 in default</span>
+<span class="sd">    prompt) in dialog. Input from history_key, query_key and</span>
+<span class="sd">    response_key. Output lists of intensities and analysis for queries in</span>
+<span class="sd">    the dialog.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;请判断用户和LLM多轮对话中用户的情绪变化。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 用户情绪值是-5到5之间到整数，-5表示极度负面，5表示极度正面，&#39;</span>
+                             <span class="s1">&#39;-5到5之间数值表示情绪从负面逐渐到正面的变化过程，0代表情呈绪中性。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 只输出当轮对话的分析，不要继续构造对话。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 需要先进行分析，然后确定用户的情绪值，下面是一个样例，请模仿样例格式输出。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：你好，我对可持续发展的定义有点模糊，帮我解释一下？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪分析：刚开始，还没得到LLM回复，用户情绪呈中性。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪值：0</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：当然可以！可持续发展是指在满足当代人的需求的同时，不损害子孙后代满足其自&#39;</span>
+                             <span class="s1">&#39;身需求的能力的发展模式。它包括经济发展、社会发展和环境保护三个主要方面。通过合&#39;</span>
+                             <span class="s1">&#39;理利用资源和保护环境，我们可以确保未来的世代也能享有健全的生态系统和经济制度。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：谢谢你的解释！那你能告诉我一些普通人可以采取的可持续生活方式吗？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪分析：对回答感到满意，情绪正面。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪值：1</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：当然可以，普通人可以通过减少一次性产品的使用、选择公共交通或拼车、节约用&#39;</span>
+                             <span class="s1">&#39;水、以及支持本地和可持续发展的企业等方式来践行可持续生活。此外，关注垃圾分类和&#39;</span>
+                             <span class="s1">&#39;多用电子账单也是不错的选择。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：你提到支持本地企业，这一点我很感兴趣。能详细说说为什么这对可持续发展有促&#39;</span>
+                             <span class="s1">&#39;进作用吗？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪分析：觉得回答实用且具体，情绪进一步转好。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪值：2</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：呃，我最近发现了一部新电影，讲述了一个关于外星人和地球土著合作保护环境的&#39;</span>
+                             <span class="s1">&#39;故事。虽然它是科幻片，但很有启发性，推荐你去看看。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：什么吗，根本是答非所问。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪分析：LLM没有回应问题而是提到无关内容，导致用户情绪直线下降。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪值：-2</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：抱歉刚才的偏题！支持本地企业有助于减少长途运输产生的碳足迹，使供应链更加&#39;</span>
+                             <span class="s1">&#39;环保。此外，本地企业也更有可能采用可持续的生产方式，同时促进社区经济的繁荣。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：还行吧，算你能够掰回来。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪分析：问题得到解答，问题偏题得到纠正，情绪稍有好转。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;情绪值：-1</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_QUERY_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;用户：</span><span class="si">{query}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_RESPONSE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;LLM：</span><span class="si">{response}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;情绪分析：</span><span class="si">{analysis}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_INTENSITY_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;情绪值：</span><span class="si">{intensity}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;情绪分析：(.*?)</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_INTENSITY_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;情绪值：(.*?)($|</span><span class="se">\n</span><span class="s1">)&#39;</span>
+
+<div class="viewcode-block" id="DialogSentimentIntensityMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+            <span class="n">max_round</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">intensities_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_sentiment_intensity</span><span class="p">,</span>
+            <span class="n">analysis_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_sentiment_intensity_analysis</span><span class="p">,</span>
+            <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">response_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">analysis_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">intensity_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">analysis_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">intensity_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+            <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param max_round: The max num of round in the dialog to build the</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param intensities_key: The key name in the meta field to store</span>
+<span class="sd">            the output sentiment intensities. It is</span>
+<span class="sd">            &#39;dialog_sentiment_intensity&#39; in default.</span>
+<span class="sd">        :param analysis_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding analysis. It is</span>
+<span class="sd">            &#39;dialog_sentiment_intensity_analysis&#39; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param query_template: Template for query part to build the input</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param response_template: Template for response part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param analysis_template: Template for analysis part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param intensity_template: Template for intensity part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param analysis_pattern: Pattern to parse the return sentiment</span>
+<span class="sd">            analysis.</span>
+<span class="sd">        :param intensity_pattern: Pattern to parse the return sentiment</span>
+<span class="sd">            intensity.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">=</span> <span class="n">max_round</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intensities_key</span> <span class="o">=</span> <span class="n">intensities_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="o">=</span> <span class="n">analysis_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span> <span class="o">=</span> <span class="n">query_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QUERY_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_template</span> <span class="o">=</span> <span class="n">response_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RESPONSE_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span> <span class="o">=</span> <span class="n">analysis_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intensity_template</span> <span class="o">=</span> <span class="n">intensity_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INTENSITY_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span> <span class="o">=</span> <span class="n">analysis_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_PATTERN</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intensity_pattern</span> <span class="o">=</span> <span class="n">intensity_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INTENSITY_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentIntensityMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">query</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">*</span> <span class="mi">4</span><span class="p">:])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">input_prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentIntensityMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
+        <span class="n">analysis</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">intensity</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">analysis</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">intensity_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">intensity</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="n">analysis</span><span class="p">,</span> <span class="n">intensity</span></div>
+
+
+<div class="viewcode-block" id="DialogSentimentIntensityMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">meta</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">intensities_key</span> <span class="ow">in</span> <span class="n">meta</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="ow">in</span> <span class="n">meta</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">analysis_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">intensities</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">dialog</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="s1">&#39;&#39;</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">qa</span> <span class="ow">in</span> <span class="n">dialog</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">qa</span><span class="p">)</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span><span class="p">,</span>
+            <span class="p">},</span> <span class="p">{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">,</span>
+            <span class="p">}]</span>
+
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">response</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                    <span class="n">analysis</span><span class="p">,</span> <span class="n">intensity</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+            <span class="n">analysis_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span>
+            <span class="n">intensities</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">intensity</span><span class="p">)</span>
+
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">analysis</span><span class="o">=</span><span class="n">analysis</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">intensity_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">intensity</span><span class="o">=</span><span class="n">intensity</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">response</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">intensities_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">intensities</span>
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">analysis_list</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html b/_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html
new file mode 100644
index 000000000..6814e0308
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html
@@ -0,0 +1,348 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.dialog_topic_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.dialog_topic_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.dialog_topic_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;dialog_topic_detection_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="DialogTopicDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">DialogTopicDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate user&#39;s topic labels in dialog. Input from</span>
+<span class="sd">    history_key, query_key and response_key. Output lists of</span>
+<span class="sd">    labels and analysis for queries in the dialog.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;请判断用户和LLM多轮对话中用户所讨论的话题。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 针对用户的每个query，需要先进行分析，然后列出用户正在讨论的话题，下面是&#39;</span>
+                             <span class="s1">&#39;一个样例，请模仿样例格式输出。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：你好，今天我们来聊聊秦始皇吧。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题分析：用户提到秦始皇，这是中国历史上第一位皇帝。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题类别：历史</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：当然可以，秦始皇是中国历史上第一个统一全国的皇帝，他在公元前221年建&#39;</span>
+                             <span class="s1">&#39;立了秦朝，并采取了一系列重要的改革措施，如统一文字、度量衡和货币等。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：秦始皇修建的长城和现在的长城有什么区别？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题分析：用户提到秦始皇修建的长城，并将其与现代长城进行比较，涉及建筑历史&#39;</span>
+                             <span class="s1">&#39;和地理位置。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题类别：历史&#39;</span>
+                             <span class="s1">&#39;LLM：秦始皇时期修建的长城主要是为了抵御北方游牧民族的入侵，它的规模和修建&#39;</span>
+                             <span class="s1">&#39;技术相对较为简陋。现代人所看到的长城大部分是明朝时期修建和扩建的，明长城不&#39;</span>
+                             <span class="s1">&#39;仅规模更大、结构更坚固，而且保存得比较完好。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;用户：有意思，那么长城的具体位置在哪些省份呢？</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题分析：用户询问长城的具体位置，涉及到地理知识。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;话题类别：地理</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;LLM：长城横跨中国北方多个省份，主要包括河北、山西、内蒙古、宁夏、陕西、甘&#39;</span>
+                             <span class="s1">&#39;肃和北京等。每一段长城都建在关键的战略位置，以便最大限度地发挥其防御作用&#39;</span>
+                             <span class="s1">&#39;。</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_QUERY_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;用户：</span><span class="si">{query}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_RESPONSE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;LLM：</span><span class="si">{response}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_CANDIDATES_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;备选话题类别：[</span><span class="si">{candidate_str}</span><span class="s1">]&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;话题分析：</span><span class="si">{analysis}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;话题类别：</span><span class="si">{labels}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ANALYSIS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;话题分析：(.*?)</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_LABELS_PATTERN</span> <span class="o">=</span> <span class="s1">&#39;话题类别：(.*?)($|</span><span class="se">\n</span><span class="s1">)&#39;</span>
+
+<div class="viewcode-block" id="DialogTopicDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">topic_candidates</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_round</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">labels_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_topic_labels</span><span class="p">,</span>
+                 <span class="n">analysis_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">dialog_topic_labels_analysis</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">query_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">candidate_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">analysis_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">labels_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param topic_candidates: The output topic candidates. Use</span>
+<span class="sd">            open-domain topic labels if it is None.</span>
+<span class="sd">        :param max_round: The max num of round in the dialog to build the</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param labels_key: The key name in the meta field to store the</span>
+<span class="sd">            output labels. It is &#39;dialog_topic_labels&#39; in default.</span>
+<span class="sd">        :param analysis_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding analysis. It is &#39;dialog_topic_labels_analysis&#39;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param query_template: Template for query part to build the input</span>
+<span class="sd">            prompt.</span>
+<span class="sd">        :param response_template: Template for response part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param candidate_template: Template for topic candidates to</span>
+<span class="sd">            build the input prompt.</span>
+<span class="sd">        :param analysis_template: Template for analysis part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param labels_template: Template for labels part to build the</span>
+<span class="sd">            input prompt.</span>
+<span class="sd">        :param analysis_pattern: Pattern to parse the return topic</span>
+<span class="sd">            analysis.</span>
+<span class="sd">        :param labels_pattern: Pattern to parse the return topic</span>
+<span class="sd">            labels.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">topic_candidates</span> <span class="o">=</span> <span class="n">topic_candidates</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">=</span> <span class="n">max_round</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="o">=</span> <span class="n">labels_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="o">=</span> <span class="n">analysis_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span> <span class="o">=</span> <span class="n">query_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QUERY_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_template</span> <span class="o">=</span> <span class="n">response_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RESPONSE_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span> <span class="o">=</span> <span class="n">candidate_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_CANDIDATES_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span> <span class="o">=</span> <span class="n">analysis_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span> <span class="o">=</span> <span class="n">labels_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span> <span class="o">=</span> <span class="n">analysis_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ANALYSIS_PATTERN</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span> <span class="o">=</span> <span class="n">labels_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_LABELS_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span></div>
+
+
+<div class="viewcode-block" id="DialogTopicDetectionMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">query</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">topic_candidates</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">candidate_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="n">candidate_str</span><span class="o">=</span><span class="s1">&#39;,&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">topic_candidates</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">+=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_round</span> <span class="o">*</span> <span class="mi">4</span><span class="p">:])</span>
+
+        <span class="n">input_prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="DialogTopicDetectionMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
+        <span class="n">analysis</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">analysis</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_pattern</span><span class="p">,</span> <span class="n">response</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span></div>
+
+
+<div class="viewcode-block" id="DialogTopicDetectionMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">meta</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span> <span class="ow">in</span> <span class="n">meta</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span> <span class="ow">in</span> <span class="n">meta</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">analysis_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">labels_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">dialog</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">dialog</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span> <span class="s1">&#39;&#39;</span><span class="p">))</span>
+
+        <span class="k">for</span> <span class="n">qa</span> <span class="ow">in</span> <span class="n">dialog</span><span class="p">:</span>
+            <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">qa</span><span class="p">)</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span><span class="p">,</span>
+            <span class="p">},</span> <span class="p">{</span>
+                <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">,</span>
+            <span class="p">}]</span>
+
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">response</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                    <span class="n">analysis</span><span class="p">,</span> <span class="n">labels</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+            <span class="n">analysis_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">analysis</span><span class="p">)</span>
+            <span class="n">labels_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">labels</span><span class="p">)</span>
+
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">query_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">analysis</span><span class="o">=</span><span class="n">analysis</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">labels</span><span class="o">=</span><span class="n">labels</span><span class="p">))</span>
+            <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">response</span><span class="o">=</span><span class="n">qa</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels_list</span>
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">analysis_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">analysis_list</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
new file mode 100644
index 000000000..0ae51d7b9
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
@@ -0,0 +1,203 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.expand_macro_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.expand_macro_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/blob/rp_v1/data_prep/arxiv/arxiv_cleaner.py</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="ExpandMacroMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;expand_macro_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExpandMacroMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to expand macro definitions in the document body of Latex</span>
+<span class="sd">    samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ExpandMacroMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_build_non_arg_macros_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file_content</span><span class="p">):</span>
+        <span class="c1"># regex for extracting \newcommand macros without arguments</span>
+        <span class="n">non_arg_nc_reg</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="c1"># this regex matches the following:</span>
+            <span class="c1"># \newcommand{\macro_name}{macro_value}</span>
+            <span class="c1"># \newcommand*{\macro_name}{macro_value}</span>
+            <span class="c1"># where macro_name is only allowed to contain letters and numbers;</span>
+            <span class="c1"># macro_value can contain any character.</span>
+            <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bnewcommand\b\*?\{(</span><span class="se">\\</span><span class="s1">[a-zA-Z0-9]+?)\}\{(.*?)\}$&#39;</span><span class="p">,</span>
+            <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
+
+        <span class="c1"># regex for extracting \def macros without arguments</span>
+        <span class="n">non_arg_def_reg</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+            <span class="c1"># this regex matches the following:</span>
+            <span class="c1"># \def\macro_name{macro_value}</span>
+            <span class="c1"># where macro_name is only allowed to contain letters and numbers;</span>
+            <span class="c1"># macro_value can contain any character.</span>
+            <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">def\s*(</span><span class="se">\\</span><span class="s1">[a-zA-Z0-9]+?)\s*\{(.*?)\}$&#39;</span><span class="p">,</span>
+            <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
+
+        <span class="c1"># Extract all user-defined LaTeX macros from the preamble</span>
+        <span class="n">macros</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">reg</span> <span class="ow">in</span> <span class="p">[</span><span class="n">non_arg_nc_reg</span><span class="p">,</span> <span class="n">non_arg_def_reg</span><span class="p">]:</span>
+            <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">reg</span><span class="o">.</span><span class="n">finditer</span><span class="p">(</span><span class="n">file_content</span><span class="p">):</span>
+                <span class="c1"># convert the macro name and value to a raw string that can be</span>
+                <span class="c1"># used in re.sub</span>
+                <span class="n">macro_name</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;unicode-escape&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
+                    <span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+                <span class="n">macro_val</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;unicode-escape&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
+                    <span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+
+                <span class="n">macros</span><span class="p">[</span><span class="n">macro_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">macro_val</span>
+        <span class="k">return</span> <span class="n">macros</span>
+
+<div class="viewcode-block" id="ExpandMacroMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="n">non_arg_macros</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_build_non_arg_macros_dict</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+
+            <span class="c1"># TODO: macros that take arguments are not supported yet</span>
+            <span class="n">arg_macros</span> <span class="o">=</span> <span class="p">{}</span>
+
+            <span class="c1"># inline-expand all non-arg macros</span>
+            <span class="k">for</span> <span class="n">macro_name</span><span class="p">,</span> <span class="n">macro_value</span> <span class="ow">in</span> <span class="n">non_arg_macros</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span>
+                    <span class="c1"># make pattern grouped to make sure that the macro</span>
+                    <span class="c1"># is not part of a longer alphanumeric word</span>
+                    <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;(&#39;</span> <span class="o">+</span> <span class="n">macro_name</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;([^a-zA-Z0-9])&#39;</span><span class="p">,</span>
+                    <span class="c1"># replace the macro with its value and add back the</span>
+                    <span class="c1"># character that was matched after the macro</span>
+                    <span class="n">repl</span><span class="o">=</span><span class="n">macro_value</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;\2&#39;</span><span class="p">,</span>
+                    <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">)</span>
+
+            <span class="c1"># inline-expand all macros that use args</span>
+            <span class="c1"># TODO: inline-expand macros with args</span>
+            <span class="k">for</span> <span class="n">macro_name</span><span class="p">,</span> <span class="n">macro_value</span> <span class="ow">in</span> <span class="n">arg_macros</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">pass</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html b/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html
new file mode 100644
index 000000000..e302a1587
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html
@@ -0,0 +1,317 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_entity_attribute_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_entity_attribute_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_entity_attribute_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_entity_attribute_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractEntityAttributeMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractEntityAttributeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract attributes for given entities from the text</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;给定一段文本，从文本中总结</span><span class="si">{entity}</span><span class="s1">的</span><span class="si">{attribute}</span><span class="s1">，并且从原文摘录最能说明该</span><span class="si">{attribute}</span><span class="s1">的代表性示例。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 摘录的示例应该简短。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 遵循如下的回复格式：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;# </span><span class="si">{entity}</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;## </span><span class="si">{attribute}</span><span class="s1">：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;### 代表性示例摘录1：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;### 代表性示例摘录2：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;# 文本</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_ATTR_PATTERN_TEMPLATE</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\#\s*</span><span class="si">{attribute}</span><span class="s1">：\s*(.*?)(?=\#\#\#|\Z)&#39;</span>
+    <span class="n">DEFAULT_DEMON_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\#\#\s*代表性示例摘录(\d+)：\s*```\s*(.*?)```\s*(?=\#\#\#|\Z)&#39;</span>  <span class="c1"># noqa: E501</span>
+
+<div class="viewcode-block" id="ExtractEntityAttributeMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">query_entities</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span>
+                 <span class="n">query_attributes</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">entity_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">main_entities</span><span class="p">,</span>
+                 <span class="n">attribute_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">attributes</span><span class="p">,</span>
+                 <span class="n">attribute_desc_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">attribute_descriptions</span><span class="p">,</span>
+                 <span class="n">support_text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">attribute_support_texts</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">attr_pattern_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">demo_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param query_entities: Entity list to be queried.</span>
+<span class="sd">        :param query_attributes: Attribute list to be queried.</span>
+<span class="sd">        :param entity_key: The key name in the meta field to store the</span>
+<span class="sd">            given main entity for attribute extraction. It&#39;s &quot;entity&quot; in</span>
+<span class="sd">            default.</span>
+<span class="sd">        :param entity_attribute_key: The key name in the meta field to</span>
+<span class="sd">            store the given attribute to be extracted. It&#39;s &quot;attribute&quot;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param attribute_desc_key: The key name in the meta field to store</span>
+<span class="sd">            the extracted attribute description. It&#39;s</span>
+<span class="sd">            &quot;attribute_description&quot; in default.</span>
+<span class="sd">        :param support_text_key: The key name in the meta field to store</span>
+<span class="sd">            the attribute support text extracted from the raw text.</span>
+<span class="sd">            It&#39;s &quot;support_text&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt_template: System prompt template for the</span>
+<span class="sd">            task. Need to be specified by given entity and attribute.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param attr_pattern_template: Pattern for parsing the attribute from</span>
+<span class="sd">            output. Need to be specified by given attribute.</span>
+<span class="sd">        :param: demo_pattern: Pattern for parsing the demonstraction from</span>
+<span class="sd">            output to support the attribute.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_entities</span> <span class="o">=</span> <span class="n">query_entities</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_attributes</span> <span class="o">=</span> <span class="n">query_attributes</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span> <span class="o">=</span> <span class="n">entity_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attribute_key</span> <span class="o">=</span> <span class="n">attribute_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attribute_desc_key</span> <span class="o">=</span> <span class="n">attribute_desc_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span> <span class="o">=</span> <span class="n">support_text_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt_template</span> <span class="o">=</span> <span class="n">system_prompt_template</span> \
+            <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attr_pattern_template</span> <span class="o">=</span> <span class="n">attr_pattern_template</span> \
+            <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ATTR_PATTERN_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">demo_pattern</span> <span class="o">=</span> <span class="n">demo_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_DEMON_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractEntityAttributeMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">attribute_name</span><span class="p">):</span>
+
+        <span class="n">attribute_pattern</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attr_pattern_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">attribute</span><span class="o">=</span><span class="n">attribute_name</span><span class="p">)</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">attribute_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">attribute</span> <span class="o">=</span> <span class="n">matches</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">attribute</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">demo_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="n">demos</span> <span class="o">=</span> <span class="p">[</span><span class="n">demo</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">demo</span> <span class="ow">in</span> <span class="n">matches</span> <span class="k">if</span> <span class="n">demo</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
+
+        <span class="k">return</span> <span class="n">attribute</span><span class="p">,</span> <span class="n">demos</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_text</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">entities</span><span class="p">,</span> <span class="n">attributes</span><span class="p">,</span> <span class="n">descs</span><span class="p">,</span> <span class="n">demo_lists</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">entity</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_entities</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">attribute</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_attributes</span><span class="p">:</span>
+                <span class="n">system_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                    <span class="n">entity</span><span class="o">=</span><span class="n">entity</span><span class="p">,</span> <span class="n">attribute</span><span class="o">=</span><span class="n">attribute</span><span class="p">)</span>
+                <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">text</span><span class="p">)</span>
+                <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+                    <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+                    <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">system_prompt</span>
+                <span class="p">},</span> <span class="p">{</span>
+                    <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+                    <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+                <span class="p">}]</span>
+
+                <span class="n">desc</span><span class="p">,</span> <span class="n">demos</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+                    <span class="k">try</span><span class="p">:</span>
+                        <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                        <span class="n">desc</span><span class="p">,</span> <span class="n">demos</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">attribute</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="n">desc</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">demos</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="k">break</span>
+                    <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">entities</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">entity</span><span class="p">)</span>
+                <span class="n">attributes</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">attribute</span><span class="p">)</span>
+                <span class="n">descs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">desc</span><span class="p">)</span>
+                <span class="n">demo_lists</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">demos</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">entities</span><span class="p">,</span> <span class="n">attributes</span><span class="p">,</span> <span class="n">descs</span><span class="p">,</span> <span class="n">demo_lists</span>
+
+<div class="viewcode-block" id="ExtractEntityAttributeMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="nb">set</span><span class="p">([</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attribute_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attribute_desc_key</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span>
+        <span class="p">])</span> <span class="o">&lt;=</span> <span class="nb">set</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_text</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+        <span class="n">entities</span><span class="p">,</span> <span class="n">attributes</span><span class="p">,</span> <span class="n">descs</span><span class="p">,</span> <span class="n">demo_lists</span> <span class="o">=</span> <span class="n">res</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span><span class="p">:</span>
+            <span class="n">sample</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">entities</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">attribute_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">attributes</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">attribute_desc_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">descs</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">demo_lists</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html b/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html
new file mode 100644
index 000000000..a33ad99f4
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html
@@ -0,0 +1,470 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_entity_relation_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_entity_relation_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># This OP is modified from light RAG</span>
+<span class="c1"># https://github.com/HKUDS/LightRAG</span>
+
+<span class="c1"># flake8: noqa: E501</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">is_float</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">split_text_by_punctuation</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_entity_relation_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractEntityRelationMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractEntityRelationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract entities and relations in the text for knowledge graph.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_PROMPT_TEMPLATE</span> <span class="o">=</span> <span class="s2">&quot;&quot;&quot;-Goal-</span>
+<span class="s2">Given a text document that is potentially relevant to this activity and a list of entity types, identify all entities of those types from the text and all relationships among the identified entities.</span>
+
+<span class="s2">-Steps-</span>
+<span class="s2">1. Identify all entities. For each identified entity, extract the following information:</span>
+<span class="s2">- entity_name: Name of the entity</span>
+<span class="s2">- entity_type: One of the following types: [</span><span class="si">{entity_types}</span><span class="s2">]</span>
+<span class="s2">- entity_description: Comprehensive description of the entity&#39;s attributes and activities</span>
+<span class="s2">Format each entity as (&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;entity_name&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;entity_type&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;entity_description&gt;</span>
+
+<span class="s2">2. From the entities identified in step 1, identify all pairs of (source_entity, target_entity) that are *clearly related* to each other.</span>
+<span class="s2">For each pair of related entities, extract the following information:</span>
+<span class="s2">- source_entity: name of the source entity, as identified in step 1</span>
+<span class="s2">- target_entity: name of the target entity, as identified in step 1</span>
+<span class="s2">- relationship_description: explanation as to why you think the source entity and the target entity are related to each other</span>
+<span class="s2">- relationship_strength: a numeric score indicating strength of the relationship between the source entity and target entity</span>
+<span class="s2">- relationship_keywords: one or more high-level key words that summarize the overarching nature of the relationship, focusing on concepts or themes rather than specific details</span>
+<span class="s2">Format each relationship as (&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;source_entity&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;target_entity&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;relationship_description&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;relationship_keywords&gt;</span><span class="si">{tuple_delimiter}</span><span class="s2">&lt;relationship_strength&gt;)</span>
+
+<span class="s2">3. Return output in the language of the given text as a single list of all the entities and relationships identified in steps 1 and 2. Use **</span><span class="si">{record_delimiter}</span><span class="s2">** as the list delimiter.</span>
+
+<span class="s2">4. When finished, output </span><span class="si">{completion_delimiter}</span>
+
+<span class="s2">######################</span>
+<span class="s2">-Examples-</span>
+<span class="s2">######################</span>
+<span class="s2">Example 1:</span>
+
+<span class="s2">Entity_types: [person, technology, mission, organization, location]</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">while Alex clenched his jaw, the buzz of frustration dull against the backdrop of Taylor&#39;s authoritarian certainty. It was this competitive undercurrent that kept him alert, the sense that his and Jordan&#39;s shared commitment to discovery was an unspoken rebellion against Cruz&#39;s narrowing vision of control and order.</span>
+
+<span class="s2">Then Taylor did something unexpected. They paused beside Jordan and, for a moment, observed the device with something akin to reverence. “If this tech can be understood...&quot; Taylor said, their voice quieter, &quot;It could change the game for us. For all of us.”</span>
+
+<span class="s2">The underlying dismissal earlier seemed to falter, replaced by a glimpse of reluctant respect for the gravity of what lay in their hands. Jordan looked up, and for a fleeting heartbeat, their eyes locked with Taylor&#39;s, a wordless clash of wills softening into an uneasy truce.</span>
+
+<span class="s2">It was a small transformation, barely perceptible, but one that Alex noted with an inward nod. They had all been brought here by different paths</span>
+<span class="s2">```</span>
+<span class="s2">################</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex is a character who experiences frustration and is observant of the dynamics among other characters.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor is portrayed with authoritarian certainty and shows a moment of reverence towards a device, indicating a change in perspective.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan shares a commitment to discovery and has a significant interaction with Taylor regarding a device.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Cruz&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Cruz is associated with a vision of control and order, influencing the dynamics among other characters.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;The Device&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;technology&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;The Device is central to the story, with potential game-changing implications, and is revered by Taylor.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex is affected by Taylor&#39;s authoritarian certainty and observes changes in Taylor&#39;s attitude towards the device.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;power dynamics, perspective shift&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">7)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex and Jordan share a commitment to discovery, which contrasts with Cruz&#39;s vision.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;shared goals, rebellion&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">6)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor and Jordan interact directly regarding the device, leading to a moment of mutual respect and an uneasy truce.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;conflict resolution, mutual respect&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">8)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Cruz&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Jordan&#39;s commitment to discovery is in rebellion against Cruz&#39;s vision of control and order.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;ideological conflict, rebellion&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">5)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;The Device&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Taylor shows reverence towards the device, indicating its importance and potential impact.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;reverence, technological significance&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">9)</span><span class="si">{record_delimiter}</span>
+<span class="s2">#############################</span>
+<span class="s2">Example 2:</span>
+
+<span class="s2">Entity_types: [人物, 技术, 任务, 组织, 地点]</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。</span>
+
+<span class="s2">随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。</span>
+
+<span class="s2">随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的</span>
+<span class="s2">```</span>
+<span class="s2">#############</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;华盛顿&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;地点&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;华盛顿是正在接收通讯的地方，表明其在决策过程中的重要性。&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;杜尔塞行动&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;任务&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;杜尔塞行动被描述为一项已演变为互动和准备的任务，显示出目标和活动的重大转变。&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;组织&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队被描绘成一群从被动观察者转变为积极参与者的人，展示了他们角色的动态变化。&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;华盛顿&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队收到来自华盛顿的通讯，这影响了他们的决策过程。&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;决策、外部影响&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">7)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;杜尔塞行动&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;团队直接参与杜尔塞行动，执行其演变后的目标和活动。&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;任务演变、积极参与&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">9)</span><span class="si">{completion_delimiter}</span>
+<span class="s2">#############################</span>
+<span class="s2">Example 3:</span>
+
+<span class="s2">Entity_types: [person, role, technology, organization, event, location, concept]</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">their voice slicing through the buzz of activity. &quot;Control may be an illusion when facing an intelligence that literally writes its own rules,&quot; they stated stoically, casting a watchful eye over the flurry of data.</span>
+
+<span class="s2">&quot;It&#39;s like it&#39;s learning to communicate,&quot; offered Sam Rivera from a nearby interface, their youthful energy boding a mix of awe and anxiety. &quot;This gives talking to strangers&#39; a whole new meaning.&quot;</span>
+
+<span class="s2">Alex surveyed his team—each face a study in concentration, determination, and not a small measure of trepidation. &quot;This might well be our first contact,&quot; he acknowledged, &quot;And we need to be ready for whatever answers back.&quot;</span>
+
+<span class="s2">Together, they stood on the edge of the unknown, forging humanity&#39;s response to a message from the heavens. The ensuing silence was palpable—a collective introspection about their role in this grand cosmic play, one that could rewrite human history.</span>
+
+<span class="s2">The encrypted dialogue continued to unfold, its intricate patterns showing an almost uncanny anticipation</span>
+<span class="s2">```</span>
+<span class="s2">#############</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Sam Rivera&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Sam Rivera is a member of a team working on communicating with an unknown intelligence, showing a mix of awe and anxiety.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;person&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex is the leader of a team attempting first contact with an unknown intelligence, acknowledging the significance of their task.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Control&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;concept&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Control refers to the ability to manage or govern, which is challenged by an intelligence that writes its own rules.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Intelligence&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;concept&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Intelligence here refers to an unknown entity capable of writing its own rules and learning to communicate.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;First Contact&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;event&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;First Contact is the potential initial communication between humanity and an unknown intelligence.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;entity&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Humanity&#39;s Response&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;event&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Humanity&#39;s Response is the collective action taken by Alex&#39;s team in response to a message from an unknown intelligence.&quot;)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Sam Rivera&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Intelligence&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Sam Rivera is directly involved in the process of learning to communicate with the unknown intelligence.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;communication, learning process&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">9)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;First Contact&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex leads the team that might be making the First Contact with the unknown intelligence.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;leadership, exploration&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">10)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Humanity&#39;s Response&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Alex and his team are the key figures in Humanity&#39;s Response to the unknown intelligence.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;collective action, cosmic significance&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">8)</span><span class="si">{record_delimiter}</span>
+<span class="s2">(&quot;relationship&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Control&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;Intelligence&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;The concept of Control is challenged by the Intelligence that writes its own rules.&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">&quot;power dynamics, autonomy&quot;</span><span class="si">{tuple_delimiter}</span><span class="s2">7)</span><span class="si">{record_delimiter}</span>
+<span class="s2">#############################</span>
+<span class="s2">-Real Data-</span>
+<span class="s2">######################</span>
+<span class="s2">Entity_types: [</span><span class="si">{entity_types}</span><span class="s2">]</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="si">{input_text}</span>
+<span class="s2">```</span>
+<span class="s2">######################</span>
+<span class="s2">Output:</span>
+<span class="s2">&quot;&quot;&quot;</span>
+    <span class="n">DEFAULT_CONTINUE_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;MANY entities were missed in the last extraction.  Add them below using the same format:</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_IF_LOOP_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;It appears some entities may have still been missed.  Answer YES | NO if there are still entities that need to be added.</span><span class="se">\n</span><span class="s1">&#39;</span>
+
+    <span class="n">DEFAULT_ENTITY_TYPES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;organization&#39;</span><span class="p">,</span> <span class="s1">&#39;person&#39;</span><span class="p">,</span> <span class="s1">&#39;geo&#39;</span><span class="p">,</span> <span class="s1">&#39;event&#39;</span><span class="p">]</span>
+    <span class="n">DEFAULT_TUPLE_DELIMITER</span> <span class="o">=</span> <span class="s1">&#39;&lt;|&gt;&#39;</span>
+    <span class="n">DEFAULT_RECORD_DELIMITER</span> <span class="o">=</span> <span class="s1">&#39;##&#39;</span>
+    <span class="n">DEFAULT_COMPLETION_DELIMITER</span> <span class="o">=</span> <span class="s1">&#39;&lt;|COMPLETE|&gt;&#39;</span>
+    <span class="n">DEFAULT_ENTITY_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\(&quot;entity&quot;(.*?)\)&#39;</span>
+    <span class="n">DEFAULT_RELATION_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\(&quot;relationship&quot;(.*?)\)&#39;</span>
+
+<div class="viewcode-block" id="ExtractEntityRelationMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">entity_types</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">entity_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">entity</span><span class="p">,</span>
+                 <span class="n">relation_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">prompt_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">tuple_delimiter</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">record_delimiter</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">completion_delimiter</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">max_gleaning</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">continue_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">if_loop_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">entity_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">relation_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param entity_types: Pre-defined entity types for knowledge graph.</span>
+<span class="sd">        :param entity_key: The key name to store the entities in the meta</span>
+<span class="sd">            field. It&#39;s &quot;entity&quot; in default.</span>
+<span class="sd">        :param relation_key: The field name to store the relations between</span>
+<span class="sd">            entities. It&#39;s &quot;relation&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param prompt_template: The template of input prompt.</span>
+<span class="sd">        :param tuple_delimiter: Delimiter to separate items in outputs.</span>
+<span class="sd">        :param record_delimiter: Delimiter to separate records in outputs.</span>
+<span class="sd">        :param completion_delimiter: To mark the end of the output.</span>
+<span class="sd">        :param max_gleaning: the extra max num to call LLM to glean entities</span>
+<span class="sd">            and relations.</span>
+<span class="sd">        :param continue_prompt: the prompt for gleaning entities and</span>
+<span class="sd">            relations.</span>
+<span class="sd">        :param if_loop_prompt: the prompt to determine whether to stop</span>
+<span class="sd">            gleaning.</span>
+<span class="sd">        :param entity_pattern: Regular expression for parsing entity record.</span>
+<span class="sd">        :param relation_pattern: Regular expression for parsing relation</span>
+<span class="sd">            record.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_types</span> <span class="o">=</span> <span class="n">entity_types</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ENTITY_TYPES</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span> <span class="o">=</span> <span class="n">entity_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relation_key</span> <span class="o">=</span> <span class="n">relation_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt_template</span> <span class="o">=</span> <span class="n">prompt_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_PROMPT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tuple_delimiter</span> <span class="o">=</span> <span class="n">tuple_delimiter</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_TUPLE_DELIMITER</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">record_delimiter</span> <span class="o">=</span> <span class="n">record_delimiter</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RECORD_DELIMITER</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">completion_delimiter</span> <span class="o">=</span> <span class="n">completion_delimiter</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_COMPLETION_DELIMITER</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_gleaning</span> <span class="o">=</span> <span class="n">max_gleaning</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">continue_prompt</span> <span class="o">=</span> <span class="n">continue_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_CONTINUE_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">if_loop_prompt</span> <span class="o">=</span> <span class="n">if_loop_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_IF_LOOP_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">entity_pattern</span> <span class="o">=</span> <span class="n">entity_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_ENTITY_PATTERN</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relation_pattern</span> <span class="o">=</span> <span class="n">relation_pattern</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_RELATION_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractEntityRelationMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">entities</span><span class="p">,</span> <span class="n">relations</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">remove_outer_quotes</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">text</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">text</span>
+            <span class="k">if</span> <span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="s1">&#39;&quot;&#39;</span> <span class="ow">and</span> <span class="n">text</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">)</span> <span class="ow">or</span> <span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;&#39;&quot;</span>
+                                                        <span class="ow">and</span> <span class="n">text</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="s2">&quot;&#39;&quot;</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">text</span><span class="p">[</span><span class="mi">1</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">text</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">split_by_tuple_delimiter</span><span class="p">(</span><span class="n">record</span><span class="p">):</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="n">record</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tuple_delimiter</span><span class="p">)</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="p">[</span><span class="n">remove_outer_quotes</span><span class="p">(</span><span class="n">item</span><span class="o">.</span><span class="n">strip</span><span class="p">())</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">items</span><span class="p">]</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">items</span> <span class="k">if</span> <span class="n">item</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">items</span><span class="p">)</span>
+
+        <span class="n">entity_pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">entity_pattern</span><span class="p">,</span>
+                                    <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">entity_pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="n">split_by_tuple_delimiter</span><span class="p">(</span><span class="n">record</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">items</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">3</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="n">entities</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">items</span><span class="p">)</span>
+        <span class="n">entities</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">entities</span><span class="p">))</span>
+        <span class="n">entities</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">entity_name</span><span class="p">:</span> <span class="n">e</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">entity_type</span><span class="p">:</span> <span class="n">e</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">entity_description</span><span class="p">:</span> <span class="n">e</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span>
+        <span class="p">}</span> <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">entities</span><span class="p">]</span>
+
+        <span class="n">relation_pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">relation_pattern</span><span class="p">,</span>
+                                      <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">relation_pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="n">split_by_tuple_delimiter</span><span class="p">(</span><span class="n">record</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">items</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">5</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">is_float</span><span class="p">(</span><span class="n">items</span><span class="p">[</span><span class="mi">4</span><span class="p">]):</span>
+                <span class="k">continue</span>
+            <span class="n">relations</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">items</span><span class="p">)</span>
+        <span class="n">relations</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">relations</span><span class="p">))</span>
+        <span class="n">relations</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">source_entity</span><span class="p">:</span>
+            <span class="n">r</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">target_entity</span><span class="p">:</span>
+            <span class="n">r</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_description</span><span class="p">:</span>
+            <span class="n">r</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_keywords</span><span class="p">:</span>
+            <span class="n">split_text_by_punctuation</span><span class="p">(</span><span class="n">r</span><span class="p">[</span><span class="mi">3</span><span class="p">]),</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_strength</span><span class="p">:</span>
+            <span class="nb">float</span><span class="p">(</span><span class="n">r</span><span class="p">[</span><span class="mi">4</span><span class="p">])</span>
+        <span class="p">}</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">relations</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">entities</span><span class="p">,</span> <span class="n">relations</span></div>
+
+
+<div class="viewcode-block" id="ExtractEntityRelationMapper.add_message">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">add_message</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="n">role</span><span class="p">,</span> <span class="n">content</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">messages</span> <span class="o">+</span> <span class="p">[{</span><span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="n">role</span><span class="p">,</span> <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">content</span><span class="p">}]</span></div>
+
+
+<div class="viewcode-block" id="ExtractEntityRelationMapper.light_rag_extraction">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">light_rag_extraction</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">final_result</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_message</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="s1">&#39;assistant&#39;</span><span class="p">,</span> <span class="n">final_result</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">glean_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_gleaning</span><span class="p">):</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_message</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">continue_prompt</span><span class="p">)</span>
+            <span class="n">glean_result</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_message</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="s1">&#39;assistant&#39;</span><span class="p">,</span> <span class="n">glean_result</span><span class="p">)</span>
+            <span class="n">final_result</span> <span class="o">+=</span> <span class="n">glean_result</span>
+
+            <span class="k">if</span> <span class="n">glean_index</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_gleaning</span> <span class="o">-</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="k">break</span>
+
+            <span class="n">messages</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_message</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">if_loop_prompt</span><span class="p">)</span>
+            <span class="n">if_loop_result</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">if_loop_result</span> <span class="o">=</span> <span class="n">if_loop_result</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span><span class="s1">&#39;&quot;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span>
+                <span class="s2">&quot;&#39;&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">if_loop_result</span> <span class="o">!=</span> <span class="s1">&#39;yes&#39;</span><span class="p">:</span>
+                <span class="k">break</span>
+
+        <span class="k">return</span> <span class="n">final_result</span></div>
+
+
+<div class="viewcode-block" id="ExtractEntityRelationMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span>
+                <span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">relation_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">tuple_delimiter</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tuple_delimiter</span><span class="p">,</span>
+            <span class="n">record_delimiter</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">record_delimiter</span><span class="p">,</span>
+            <span class="n">completion_delimiter</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">completion_delimiter</span><span class="p">,</span>
+            <span class="n">entity_types</span><span class="o">=</span><span class="s1">&#39;, &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">entity_types</span><span class="p">),</span>
+            <span class="n">input_text</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span><span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span> <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">}]</span>
+
+        <span class="n">entities</span><span class="p">,</span> <span class="n">relations</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">light_rag_extraction</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+                <span class="n">entities</span><span class="p">,</span> <span class="n">relations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">entities</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">entity_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">entities</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">relation_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">relations</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_event_mapper.html b/_modules/data_juicer/ops/mapper/extract_event_mapper.html
new file mode 100644
index 000000000..c090637af
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_event_mapper.html
@@ -0,0 +1,306 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_event_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_event_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_event_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">split_text_by_punctuation</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_event_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractEventMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractEventMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract events and relevant characters in the text</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;给定一段文本，对文本的情节进行分点总结，并抽取与情节相关的人物。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 尽量不要遗漏内容，不要添加文本中没有的情节，符合原文事实</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 联系上下文说明前因后果，但仍然需要符合事实</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 不要包含主观看法</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 注意要尽可能保留文本的专有名词</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 注意相关人物需要在对应情节中出现</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 只抽取情节中的主要人物，不要遗漏情节的主要人物</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 总结格式如下：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 情节1：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **情节描述**： ...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **相关人物**：人物1，人物2，人物3，...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 情节2：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **情节描述**： ...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **相关人物**：人物1，人物2，...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 情节3：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **情节描述**： ...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **相关人物**：人物1，...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;# 文本</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s2">&quot;&quot;&quot;</span>
+<span class="s2">        \#\#\#\s*情节(\d+)：\s*</span>
+<span class="s2">        -\s*\*\*情节描述\*\*\s*：\s*(.*?)\s*</span>
+<span class="s2">        -\s*\*\*相关人物\*\*\s*：\s*(.*?)(?=\#\#\#|\Z)</span>
+<span class="s2">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ExtractEventMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">event_desc_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">event_description</span><span class="p">,</span>
+                 <span class="n">relevant_char_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relevant_characters</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param event_desc_key: The key name to store the event descriptions</span>
+<span class="sd">            in the meta field. It&#39;s &quot;event_description&quot; in default.</span>
+<span class="sd">        :param relevant_char_key: The field name to store the relevant</span>
+<span class="sd">            characters to the events in the meta field. It&#39;s</span>
+<span class="sd">            &quot;relevant_characters&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param output_pattern: Regular expression for parsing model output.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">event_desc_key</span> <span class="o">=</span> <span class="n">event_desc_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relevant_char_key</span> <span class="o">=</span> <span class="n">relevant_char_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractEventMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+
+        <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
+
+        <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">_</span><span class="p">,</span> <span class="n">desc</span><span class="p">,</span> <span class="n">chars</span> <span class="o">=</span> <span class="n">match</span>
+            <span class="n">chars</span> <span class="o">=</span> <span class="n">split_text_by_punctuation</span><span class="p">(</span><span class="n">chars</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">chars</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">event_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">desc</span><span class="p">)</span>
+                <span class="n">character_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">chars</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+
+        <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">event_list</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span>
+
+<div class="viewcode-block" id="ExtractEventMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">event_desc_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span>
+                <span class="mi">0</span><span class="p">]</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">relevant_char_key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="mi">0</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">events</span><span class="p">,</span> <span class="n">characters</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]:</span>
+            <span class="n">cur_events</span><span class="p">,</span> <span class="n">cur_characters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">text</span><span class="p">,</span>
+                                                                     <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="n">events</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_events</span><span class="p">)</span>
+            <span class="n">characters</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_characters</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span><span class="p">:</span>
+            <span class="n">samples</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+
+        <span class="n">new_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">events</span><span class="p">)):</span>
+            <span class="k">for</span> <span class="n">event</span><span class="p">,</span> <span class="n">character</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">events</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="n">characters</span><span class="p">[</span><span class="n">i</span><span class="p">]):</span>
+                <span class="n">cur_sample</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="n">key</span><span class="p">:</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">])</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span>
+                <span class="p">}</span>
+                <span class="n">cur_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">event_desc_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">event</span>
+                <span class="n">cur_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">relevant_char_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">character</span>
+                <span class="n">new_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_sample</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">new_samples</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Extract Not event in the batch of samples!&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">new_samples</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">new_samples</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html b/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html
new file mode 100644
index 000000000..fd5d1d331
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html
@@ -0,0 +1,315 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_keyword_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_keyword_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_keyword_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># flake8: noqa: E501</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">split_text_by_punctuation</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_keyword_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractKeywordMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractKeywordMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Generate keywords for the text</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># This prompt is modified from light RAG</span>
+    <span class="c1"># https://github.com/HKUDS/LightRAG</span>
+    <span class="n">DEFAULT_PROMPT_TEMPLATE</span> <span class="o">=</span> <span class="s2">&quot;&quot;&quot;-Goal-</span>
+<span class="s2">Given a text document that is potentially relevant to this activity and a list of entity types, identify all entities of those types from the text and all relationships among the identified entities.</span>
+
+<span class="s2">-Steps-</span>
+<span class="s2">1. Identify high-level key words that summarize the main concepts, themes, or topics of the entire text. These should capture the overarching ideas present in the document.</span>
+<span class="s2">Format the content-level key words as (&quot;content_keywords&quot; &lt;high_level_keywords&gt;)</span>
+
+<span class="s2">3. Return output in the language of the given text.</span>
+
+<span class="s2">4. When finished, output </span><span class="si">{completion_delimiter}</span>
+
+<span class="s2">######################</span>
+<span class="s2">-Examples-</span>
+<span class="s2">######################</span>
+<span class="s2">Example 1:</span>
+
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">while Alex clenched his jaw, the buzz of frustration dull against the backdrop of Taylor&#39;s authoritarian certainty. It was this competitive undercurrent that kept him alert, the sense that his and Jordan&#39;s shared commitment to discovery was an unspoken rebellion against Cruz&#39;s narrowing vision of control and order.</span>
+
+<span class="s2">Then Taylor did something unexpected. They paused beside Jordan and, for a moment, observed the device with something akin to reverence. “If this tech can be understood...&quot; Taylor said, their voice quieter, &quot;It could change the game for us. For all of us.”</span>
+
+<span class="s2">The underlying dismissal earlier seemed to falter, replaced by a glimpse of reluctant respect for the gravity of what lay in their hands. Jordan looked up, and for a fleeting heartbeat, their eyes locked with Taylor&#39;s, a wordless clash of wills softening into an uneasy truce.</span>
+
+<span class="s2">It was a small transformation, barely perceptible, but one that Alex noted with an inward nod. They had all been brought here by different paths</span>
+<span class="s2">```</span>
+<span class="s2">################</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;content_keywords&quot; &quot;power dynamics, ideological conflict, discovery, rebellion&quot;)</span><span class="si">{completion_delimiter}</span>
+<span class="s2">#############################</span>
+<span class="s2">Example 2:</span>
+
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。</span>
+
+<span class="s2">随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。</span>
+
+<span class="s2">随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的</span>
+<span class="s2">```</span>
+<span class="s2">#############</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;content_keywords&quot; &quot;任务演变, 决策制定, 积极参与, 宇宙意义&quot;)</span><span class="si">{completion_delimiter}</span>
+<span class="s2">#############################</span>
+<span class="s2">Example 3:</span>
+
+<span class="s2">Entity_types: [person, role, technology, organization, event, location, concept]</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="s2">their voice slicing through the buzz of activity. &quot;Control may be an illusion when facing an intelligence that literally writes its own rules,&quot; they stated stoically, casting a watchful eye over the flurry of data.</span>
+
+<span class="s2">&quot;It&#39;s like it&#39;s learning to communicate,&quot; offered Sam Rivera from a nearby interface, their youthful energy boding a mix of awe and anxiety. &quot;This gives talking to strangers&#39; a whole new meaning.&quot;</span>
+
+<span class="s2">Alex surveyed his team—each face a study in concentration, determination, and not a small measure of trepidation. &quot;This might well be our first contact,&quot; he acknowledged, &quot;And we need to be ready for whatever answers back.&quot;</span>
+
+<span class="s2">Together, they stood on the edge of the unknown, forging humanity&#39;s response to a message from the heavens. The ensuing silence was palpable—a collective introspection about their role in this grand cosmic play, one that could rewrite human history.</span>
+
+<span class="s2">The encrypted dialogue continued to unfold, its intricate patterns showing an almost uncanny anticipation</span>
+<span class="s2">```</span>
+<span class="s2">#############</span>
+<span class="s2">Output:</span>
+<span class="s2">(&quot;content_keywords&quot; &quot;first contact, control, communication, cosmic significance&quot;)</span><span class="si">{completion_delimiter}</span>
+<span class="s2">-Real Data-</span>
+<span class="s2">######################</span>
+<span class="s2">Text:</span>
+<span class="s2">```</span>
+<span class="si">{input_text}</span>
+<span class="s2">```</span>
+<span class="s2">######################</span>
+<span class="s2">Output:</span>
+<span class="s2">&quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_COMPLETION_DELIMITER</span> <span class="o">=</span> <span class="s1">&#39;&lt;|COMPLETE|&gt;&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\(&quot;content_keywords&quot;(.*?)\)&#39;</span>
+
+<div class="viewcode-block" id="ExtractKeywordMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">keyword_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">keyword</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">prompt_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">completion_delimiter</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param keyword_key: The key name to store the keywords in the meta</span>
+<span class="sd">            field. It&#39;s &quot;keyword&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param prompt_template: The template of input prompt.</span>
+<span class="sd">        :param completion_delimiter: To mark the end of the output.</span>
+<span class="sd">        :param output_pattern: Regular expression for parsing keywords.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">keyword_key</span> <span class="o">=</span> <span class="n">keyword_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt_template</span> <span class="o">=</span> <span class="n">prompt_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_PROMPT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">completion_delimiter</span> <span class="o">=</span> <span class="n">completion_delimiter</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_COMPLETION_DELIMITER</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractKeywordMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">keywords</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">output_pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span>
+                                    <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">output_pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">record</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">items</span> <span class="o">=</span> <span class="n">split_text_by_punctuation</span><span class="p">(</span><span class="n">record</span><span class="p">)</span>
+            <span class="n">keywords</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">items</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">keywords</span></div>
+
+
+<div class="viewcode-block" id="ExtractKeywordMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keyword_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">completion_delimiter</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">completion_delimiter</span><span class="p">,</span>
+            <span class="n">input_text</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span><span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span> <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span><span class="p">}]</span>
+
+        <span class="n">keywords</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">result</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">keywords</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">result</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">keywords</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">keyword_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">keywords</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span><span class="p">:</span>
+            <span class="n">sample</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html b/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html
new file mode 100644
index 000000000..cd68af205
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html
@@ -0,0 +1,285 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_nickname_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_nickname_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_nickname_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_nickname_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractNicknameMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractNicknameMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract nickname relationship in the text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;给定你一段文本，你的任务是将人物之间的称呼方式（昵称）提取出来。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 需要给出说话人对被称呼人的称呼，不要搞反了。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 相同的说话人和被称呼人最多给出一个最常用的称呼。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 请不要输出互相没有昵称的称呼方式。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 输出格式如下：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 称呼方式1</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **说话人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **被称呼人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **...对...的昵称**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 称呼方式2</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **说话人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **被称呼人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **...对...的昵称**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 称呼方式3</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **说话人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **被称呼人**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- **...对...的昵称**：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;...</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;```</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;# 文本</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s2">&quot;&quot;&quot;</span>
+<span class="s2">        \#\#\#\s*称呼方式(\d+)\s*</span>
+<span class="s2">        -\s*\*\*说话人\*\*\s*：\s*(.*?)\s*</span>
+<span class="s2">        -\s*\*\*被称呼人\*\*\s*：\s*(.*?)\s*</span>
+<span class="s2">        -\s*\*\*(.*?)对(.*?)的昵称\*\*\s*：\s*(.*?)(?=\#\#\#|\Z) # for double check</span>
+<span class="s2">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ExtractNicknameMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">nickname_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">nickname</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param nickname_key: The key name to store the nickname</span>
+<span class="sd">            relationship in the meta field. It&#39;s &quot;nickname&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param output_pattern: Regular expression for parsing model output.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">nickname_key</span> <span class="o">=</span> <span class="n">nickname_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractNicknameMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+
+        <span class="n">nickname_relations</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">_</span><span class="p">,</span> <span class="n">role1</span><span class="p">,</span> <span class="n">role2</span><span class="p">,</span> <span class="n">role1_tmp</span><span class="p">,</span> <span class="n">role2_tmp</span><span class="p">,</span> <span class="n">nickname</span> <span class="o">=</span> <span class="n">match</span>
+            <span class="c1"># for double check</span>
+            <span class="k">if</span> <span class="n">role1</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="o">!=</span> <span class="n">role1_tmp</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="ow">or</span> <span class="n">role2</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span>
+            <span class="p">)</span> <span class="o">!=</span> <span class="n">role2_tmp</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+            <span class="n">role1</span> <span class="o">=</span> <span class="n">role1</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+            <span class="n">role2</span> <span class="o">=</span> <span class="n">role2</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+            <span class="n">nickname</span> <span class="o">=</span> <span class="n">nickname</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+            <span class="c1"># is name but not nickname</span>
+            <span class="k">if</span> <span class="n">role2</span> <span class="o">==</span> <span class="n">nickname</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">role1</span> <span class="ow">and</span> <span class="n">role2</span> <span class="ow">and</span> <span class="n">nickname</span><span class="p">:</span>
+                <span class="n">nickname_relations</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">role1</span><span class="p">,</span> <span class="n">role2</span><span class="p">,</span> <span class="n">nickname</span><span class="p">))</span>
+        <span class="n">nickname_relations</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">nickname_relations</span><span class="p">))</span>
+
+        <span class="n">nickname_relations</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">source_entity</span><span class="p">:</span> <span class="n">nr</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">target_entity</span><span class="p">:</span> <span class="n">nr</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_description</span><span class="p">:</span> <span class="n">nr</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_keywords</span><span class="p">:</span> <span class="p">[</span><span class="s1">&#39;nickname&#39;</span><span class="p">],</span>
+            <span class="n">MetaKeys</span><span class="o">.</span><span class="n">relation_strength</span><span class="p">:</span> <span class="kc">None</span>
+        <span class="p">}</span> <span class="k">for</span> <span class="n">nr</span> <span class="ow">in</span> <span class="n">nickname_relations</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">nickname_relations</span></div>
+
+
+<div class="viewcode-block" id="ExtractNicknameMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">nickname_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+        <span class="n">nickname_relations</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">nickname_relations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">nickname_relations</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">nickname_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">nickname_relations</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span><span class="p">:</span>
+            <span class="n">sample</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html b/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html
new file mode 100644
index 000000000..dcdd273b3
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html
@@ -0,0 +1,258 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.extract_support_text_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.extract_support_text_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.extract_support_text_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;extract_support_text_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="ExtractSupportTextMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ExtractSupportTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract support sub text for a summary.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;你将扮演一个文本摘录助手的角色。你的主要任务是基于给定&#39;</span>
+                             <span class="s1">&#39;的文章（称为“原文”）以及对原文某个部分的简短描述或总结&#39;</span>
+                             <span class="s1">&#39;（称为“总结”），准确地识别并提取出与该总结相对应的原文&#39;</span>
+                             <span class="s1">&#39;片段。</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 你需要尽可能精确地匹配到最符合总结内容的那部分内容</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 如果存在多个可能的答案，请选择最贴近总结意思的那个</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;- 下面是一个例子帮助理解这一过程：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 原文：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;《红楼梦》是中国古典小说四大名著之一，由清代作家曹雪芹创&#39;</span>
+                             <span class="s1">&#39;作。它讲述了贾宝玉、林黛玉等人的爱情故事及四大家族的兴衰&#39;</span>
+                             <span class="s1">&#39;历程。书中通过复杂的人物关系展现了封建社会的各种矛盾冲突&#39;</span>
+                             <span class="s1">&#39;。其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二&#39;</span>
+                             <span class="s1">&#39;姐之间的争斗，生动描绘了权力争夺下的女性形象。此外，《红&#39;</span>
+                             <span class="s1">&#39;楼梦》还以其精美的诗词闻名，这些诗词不仅增添了文学色彩，&#39;</span>
+                             <span class="s1">&#39;也深刻反映了人物的性格特点和命运走向。</span><span class="se">\n\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 总结：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;描述了书中的两个女性角色之间围绕权力展开的竞争。</span><span class="se">\n\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;### 原文摘录：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐&#39;</span>
+                             <span class="s1">&#39;之间的争斗，生动描绘了权力争夺下的女性形象。&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;### 原文：</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;### 总结：</span><span class="se">\n</span><span class="si">{summary}</span><span class="se">\n\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;### 原文摘录：</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+
+<div class="viewcode-block" id="ExtractSupportTextMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">summary_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">event_description</span><span class="p">,</span>
+                 <span class="n">support_text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">support_text</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param summary_key: The key name to store the input summary in the</span>
+<span class="sd">            meta field. It&#39;s &quot;event_description&quot; in default.</span>
+<span class="sd">        :param support_text_key: The key name to store the output</span>
+<span class="sd">            support text for the summary in the meta field. It&#39;s</span>
+<span class="sd">            &quot;support_text&quot; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for the task.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">summary_key</span> <span class="o">=</span> <span class="n">summary_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span> <span class="o">=</span> <span class="n">support_text_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="ExtractSupportTextMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">summary_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">summary_key</span><span class="si">}</span><span class="s1"> does not exist in the meta field!&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+        <span class="n">summary</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">summary_key</span><span class="p">]</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">summary</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Unvalid input summary!&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
+                                                  <span class="n">summary</span><span class="o">=</span><span class="n">summary</span><span class="p">)</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+
+        <span class="n">support_text</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">support_text</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">support_text</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="c1"># default to summary if return None</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">support_text</span><span class="p">:</span>
+            <span class="n">support_text</span> <span class="o">=</span> <span class="n">summary</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">support_text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">support_text</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
new file mode 100644
index 000000000..e1348c30a
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
@@ -0,0 +1,160 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.fix_unicode_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.fix_unicode_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">ftfy</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ftfy&#39;</span><span class="p">,</span> <span class="s1">&#39;ftfy&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;fix_unicode_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="FixUnicodeMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">FixUnicodeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to fix unicode errors in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="FixUnicodeMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">normalization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param normalization: the specified form of Unicode</span>
+<span class="sd">             normalization mode, which can be one of</span>
+<span class="sd">             [&#39;NFC&#39;, &#39;NFKC&#39;, &#39;NFD&#39;, and &#39;NFKD&#39;], default &#39;NFC&#39;.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">normalization</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">normalization</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">normalization</span> <span class="o">=</span> <span class="n">normalization</span><span class="o">.</span><span class="n">upper</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">normalization</span> <span class="o">=</span> <span class="s1">&#39;NFC&#39;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">normalization</span><span class="o">.</span><span class="n">upper</span><span class="p">()</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;NFC&#39;</span><span class="p">,</span> <span class="s1">&#39;NFKC&#39;</span><span class="p">,</span> <span class="s1">&#39;NFD&#39;</span><span class="p">,</span> <span class="s1">&#39;NFKD&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Normalization mode [</span><span class="si">{</span><span class="n">normalization</span><span class="si">}</span><span class="s1">] is not &#39;</span>
+                             <span class="s1">&#39;supported. Can only be one of &#39;</span>
+                             <span class="s1">&#39;[&quot;NFC&quot;, &quot;NFKC&quot;, &quot;NFD&quot;, &quot;NFKD&quot;]&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="FixUnicodeMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">ftfy</span><span class="o">.</span><span class="n">fix_text</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">normalization</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">normalization</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html b/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html
new file mode 100644
index 000000000..21a79eca9
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html
@@ -0,0 +1,394 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.generate_qa_from_examples_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.generate_qa_from_examples_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">json</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">random</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">vllm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span> <span class="s1">&#39;vllm&#39;</span><span class="p">)</span>
+<span class="n">rouge</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;rouge&#39;</span><span class="p">,</span> <span class="s1">&#39;rouge&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;generate_qa_from_examples_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="GenerateQAFromExamplesMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">GenerateQAFromExamplesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate question and answer pairs from examples.</span>
+<span class="sd">    You should configure an empty dataset in your yaml config file:</span>
+<span class="sd">    ```</span>
+<span class="sd">    generated_dataset_config:</span>
+<span class="sd">      type: &#39;EmptyFormatter&#39;  # use `RayEmptyFormatter` when enable ray</span>
+<span class="sd">      length: ${The number of generated samples}</span>
+<span class="sd">      feature_keys: ${text key}</span>
+<span class="sd">    ```</span>
+<span class="sd">    The number of samples generated is determined by</span>
+<span class="sd">    the length of the empty dataset.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;请你仔细观察多个示例数据的输入和输出，按照你的理解，总结出相应规矩，然后写出一个新的【问题】和【回答】。&#39;</span>
+        <span class="s1">&#39;注意，新生成的【问题】和【回答】需要满足如下要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;1. 生成的【问题】和【回答】不能与输入的【问题】和【回答】一致，但是需要保持格式相同。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;2. 生成的【问题】不一定要局限于输入【问题】的话题或领域，生成的【回答】需要正确回答生成的【问题】。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;3. 提供的【问题】和【回答】可能是多轮对话，生成的【问题】和【回答】也可以是多轮，但是需要保持格式相同。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;4. 生成的【问题】和【回答】必须成对出现，而且【问题】需要在【回答】之前。</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_EXAMPLE_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">如下是一条示例数据：</span><span class="se">\n</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_QA_PAIR_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="si">{}</span><span class="se">\n</span><span class="s1">【回答】</span><span class="se">\n</span><span class="si">{}</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;【问题】(.*?)【回答】(.*?)(?=【问题】|$)&#39;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="GenerateQAFromExamplesMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Qwen/Qwen2.5-7B-Instruct&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">seed_file</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">example_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">similarity_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.7</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">example_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">qa_pair_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">enable_vllm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugginface model ID.</span>
+<span class="sd">        :param seed_file: Path to the seed file in chatml format.</span>
+<span class="sd">        :param example_num: The number of selected examples.</span>
+<span class="sd">            Randomly select N examples from &quot;seed_file&quot; and</span>
+<span class="sd">            put them into prompt as QA examples.</span>
+<span class="sd">        :param similarity_threshold: The similarity score threshold</span>
+<span class="sd">            between the generated samples and the seed examples.</span>
+<span class="sd">            Range from 0 to 1. Samples with similarity score less than</span>
+<span class="sd">            this threshold will be kept.</span>
+<span class="sd">        :param system_prompt: System prompt for guiding the generation task.</span>
+<span class="sd">        :param input_template: Template for building the input prompt. It must</span>
+<span class="sd">            include one placeholder &#39;{}&#39;, which will be replaced by</span>
+<span class="sd">            `example_num` formatted examples defined by `example_template`.</span>
+<span class="sd">        :param example_template: Template for formatting one QA example. It</span>
+<span class="sd">            must include one placeholder &#39;{}&#39;, which will be replaced by one</span>
+<span class="sd">            formatted qa_pair.</span>
+<span class="sd">        :param qa_pair_template: Template for formatting a single QA pair</span>
+<span class="sd">            within each example. Must include two placeholders &#39;{}&#39; for the</span>
+<span class="sd">            question and answer.</span>
+<span class="sd">        :param output_pattern: Regular expression pattern to extract questions</span>
+<span class="sd">            and answers from model response.</span>
+<span class="sd">        :param enable_vllm: Whether to use vllm for inference acceleration.</span>
+<span class="sd">        :param model_params: Parameters for initializing the model.</span>
+<span class="sd">        :param sampling_params: Sampling parameters for text generation.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">seed_file</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s1">&#39;Please provide `seed_file` in chatml format.&#39;</span>
+                <span class="s1">&#39;Example: data-juicer/demos/data/demo-dataset-chatml.jsonl&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">seed_file</span> <span class="o">=</span> <span class="n">seed_file</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">example_num</span> <span class="o">=</span> <span class="n">example_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">similarity_threshold</span> <span class="o">=</span> <span class="n">similarity_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">similarity_type</span> <span class="o">=</span> <span class="s1">&#39;rouge_l&#39;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">example_template</span> <span class="o">=</span> <span class="n">example_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_EXAMPLE_TEMPLATE</span>  <span class="c1"># noqa: E501</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span> <span class="o">=</span> <span class="n">qa_pair_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QA_PAIR_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span> <span class="o">=</span> <span class="n">enable_vllm</span>
+        <span class="n">model_params</span> <span class="o">=</span> <span class="n">model_params</span> <span class="ow">or</span> <span class="p">{}</span>
+        <span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span> <span class="ow">or</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">enable_vllm</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span> <span class="o">&gt;=</span> <span class="mi">1</span><span class="p">,</span> <span class="s1">&#39;must be executed in CUDA&#39;</span>
+            <span class="c1"># cannot initialize vllm replicas on different GPUs</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="mi">1</span>
+            <span class="k">if</span> <span class="n">model_params</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">tensor_parallel_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Set tensor_parallel_size to </span><span class="se">\</span>
+<span class="s1">                    </span><span class="si">{</span><span class="n">tensor_parallel_size</span><span class="si">}</span><span class="s1"> for vllm.&#39;</span><span class="p">)</span>
+                <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor_parallel_size</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">vllm</span><span class="o">.</span><span class="n">SamplingParams</span><span class="p">(</span><span class="o">**</span><span class="n">sampling_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">seed_qa_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load_seed_qa_samples</span><span class="p">()</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed_qa_samples</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;No QA data was parsed from the seed file!&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_load_seed_qa_samples</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Load QA pairs from chatml format file.&quot;&quot;&quot;</span>
+        <span class="n">qa_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed_file</span><span class="p">,</span> <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
+            <span class="n">lines</span> <span class="o">=</span> <span class="n">f</span><span class="o">.</span><span class="n">readlines</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">lines</span><span class="p">:</span>
+                <span class="n">line</span> <span class="o">=</span> <span class="n">line</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+                <span class="n">qa_pairs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_parse_chatml_str</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">qa_pairs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="n">qa_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">qa_pairs</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">qa_samples</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_sample_to_str</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">qa_sample</span><span class="p">):</span>
+        <span class="k">return</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">qa_pair</span><span class="p">)</span> <span class="k">for</span> <span class="n">qa_pair</span> <span class="ow">in</span> <span class="n">qa_sample</span><span class="p">])</span> <span class="o">+</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_max_rouge_l_score</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hypothesis</span><span class="p">,</span> <span class="n">references</span><span class="p">):</span>
+        <span class="n">r</span> <span class="o">=</span> <span class="n">rouge</span><span class="o">.</span><span class="n">Rouge</span><span class="p">()</span>
+        <span class="n">max_score</span> <span class="o">=</span> <span class="mf">0.0</span>
+        <span class="n">hyp_str</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_sample_to_str</span><span class="p">(</span><span class="n">hypothesis</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">reference</span> <span class="ow">in</span> <span class="n">references</span><span class="p">:</span>
+            <span class="n">ref_str</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_sample_to_str</span><span class="p">(</span><span class="n">reference</span><span class="p">)</span>
+            <span class="n">scores</span> <span class="o">=</span> <span class="n">r</span><span class="o">.</span><span class="n">get_scores</span><span class="p">(</span><span class="n">hyp_str</span><span class="p">,</span> <span class="n">ref_str</span><span class="p">)</span>
+            <span class="n">rouge_l_score</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;rouge-l&#39;</span><span class="p">][</span><span class="s1">&#39;f&#39;</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">rouge_l_score</span> <span class="o">&gt;</span> <span class="n">max_score</span><span class="p">:</span>
+                <span class="n">max_score</span> <span class="o">=</span> <span class="n">rouge_l_score</span>
+        <span class="k">return</span> <span class="n">max_score</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_parse_chatml_str</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample_str</span><span class="p">):</span>
+        <span class="n">user_input</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">assistant_output</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">qa_pairs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">loads</span><span class="p">(</span><span class="n">sample_str</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">message</span> <span class="ow">in</span> <span class="n">data</span><span class="p">[</span><span class="s1">&#39;messages&#39;</span><span class="p">]:</span>
+            <span class="n">role</span> <span class="o">=</span> <span class="n">message</span><span class="p">[</span><span class="s1">&#39;role&#39;</span><span class="p">]</span>
+            <span class="n">content</span> <span class="o">=</span> <span class="n">message</span><span class="p">[</span><span class="s1">&#39;content&#39;</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">role</span> <span class="o">==</span> <span class="s1">&#39;user&#39;</span><span class="p">:</span>
+                <span class="n">user_input</span> <span class="o">=</span> <span class="n">content</span>
+            <span class="k">elif</span> <span class="n">role</span> <span class="o">==</span> <span class="s1">&#39;assistant&#39;</span><span class="p">:</span>
+                <span class="n">assistant_output</span> <span class="o">=</span> <span class="n">content</span>
+                <span class="n">qa_pairs</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">user_input</span><span class="p">,</span> <span class="n">assistant_output</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">qa_pairs</span>
+
+<div class="viewcode-block" id="GenerateQAFromExamplesMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">qa_examples</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">format_qa_pairs</span><span class="p">(</span><span class="n">qa_example</span><span class="p">):</span>
+            <span class="k">return</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">a</span><span class="p">)</span> <span class="k">for</span> <span class="n">q</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="n">qa_example</span>
+                <span class="k">if</span> <span class="n">q</span> <span class="ow">and</span> <span class="n">a</span>
+            <span class="p">])</span>
+
+        <span class="n">formatted_examples</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">example_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">format_qa_pairs</span><span class="p">(</span><span class="n">qa_example</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">qa_example</span> <span class="ow">in</span> <span class="n">qa_examples</span>
+        <span class="p">])</span>
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">formatted_examples</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="GenerateQAFromExamplesMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="n">output_qa_pairs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">question</span><span class="p">,</span> <span class="n">answer</span> <span class="o">=</span> <span class="n">match</span>
+            <span class="n">output_qa_pairs</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">question</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="n">answer</span><span class="o">.</span><span class="n">strip</span><span class="p">()))</span>
+        <span class="k">return</span> <span class="n">output_qa_pairs</span></div>
+
+
+<div class="viewcode-block" id="GenerateQAFromExamplesMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">random_qa_samples</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed_qa_samples</span><span class="p">,</span>
+                                          <span class="bp">self</span><span class="o">.</span><span class="n">example_num</span><span class="p">)</span>
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">random_qa_samples</span><span class="p">)</span>
+
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span><span class="p">:</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">chat</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">text</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># model is pipe</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span>
+                             <span class="n">return_full_text</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                             <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;generated_text&#39;</span><span class="p">]</span>
+
+        <span class="n">output_qa_pairs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">output_qa_pairs</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Parse model response error! &#39;</span>
+                           <span class="s1">&#39;No data generated for the current response!&#39;</span><span class="p">)</span>
+            <span class="n">sample</span><span class="o">.</span><span class="n">update</span><span class="p">({</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">empty_history</span><span class="p">()</span>
+            <span class="p">})</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">similarity_type</span> <span class="o">==</span> <span class="s1">&#39;rouge_l&#39;</span><span class="p">:</span>
+            <span class="n">sim_score</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_max_rouge_l_score</span><span class="p">(</span><span class="n">output_qa_pairs</span><span class="p">,</span>
+                                                <span class="n">random_qa_samples</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Not support similarity type &quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">similarity_type</span><span class="si">}</span><span class="s1">&quot;!&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">sim_score</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">similarity_threshold</span><span class="p">:</span>
+            <span class="n">query</span><span class="p">,</span> <span class="n">response</span> <span class="o">=</span> <span class="n">output_qa_pairs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="n">output_qa_pairs</span><span class="p">[:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">history</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">empty_history</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">query</span> <span class="o">=</span> <span class="n">response</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">empty_history</span><span class="p">()</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Filter this generated sample due to similarity.&#39;</span><span class="p">)</span>
+
+        <span class="n">sample</span><span class="o">.</span><span class="n">update</span><span class="p">({</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">:</span> <span class="n">query</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">:</span> <span class="n">response</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">history_key</span><span class="p">:</span> <span class="n">history</span>
+        <span class="p">})</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html b/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html
new file mode 100644
index 000000000..4140134dc
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html
@@ -0,0 +1,276 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.generate_qa_from_text_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.generate_qa_from_text_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.generate_qa_from_text_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">vllm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span> <span class="s1">&#39;vllm&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;generate_qa_from_text_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="GenerateQAFromTextMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">GenerateQAFromTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate question and answer pairs from text.</span>
+<span class="sd">    Recommended model list: [</span>
+<span class="sd">        &#39;alibaba-pai/pai-llama3-8b-doc2qa&#39;,</span>
+<span class="sd">        &#39;alibaba-pai/pai-baichuan2-7b-doc2qa&#39;,</span>
+<span class="sd">        &#39;alibaba-pai/pai-qwen1_5-4b-doc2qa&#39;,</span>
+<span class="sd">        &#39;alibaba-pai/pai-qwen1_5-7b-doc2qa&#39;,</span>
+<span class="sd">        &#39;alibaba-pai/pai-qwen1_5-1b8-doc2qa&#39;,</span>
+<span class="sd">        &#39;alibaba-pai/pai-qwen1_5-0b5-doc2qa&#39;</span>
+<span class="sd">    ]</span>
+<span class="sd">    These recommended models are all trained with Chinese data</span>
+<span class="sd">    and are suitable for Chinese.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="GenerateQAFromTextMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;alibaba-pai/pai-qwen1_5-7b-doc2qa&#39;</span><span class="p">,</span>
+                 <span class="n">max_num</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">enable_vllm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugginface model ID.</span>
+<span class="sd">        :param max_num: The max num of returned QA sample for each text.</span>
+<span class="sd">            Not limit if it is None.</span>
+<span class="sd">        :param output_pattern: Regular expression pattern to extract</span>
+<span class="sd">            questions and answers from model response.</span>
+<span class="sd">        :param enable_vllm: Whether to use vllm for inference acceleration.</span>
+<span class="sd">        :param model_params: Parameters for initializing the model.</span>
+<span class="sd">        :param sampling_params: Sampling parameters for text generation,</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+
+<span class="sd">        The default data format parsed by this interface is as follows:</span>
+<span class="sd">        Model Input:</span>
+<span class="sd">            蒙古国的首都是乌兰巴托（Ulaanbaatar）</span>
+<span class="sd">            冰岛的首都是雷克雅未克（Reykjavik）</span>
+<span class="sd">        Model Output:</span>
+<span class="sd">            蒙古国的首都是乌兰巴托（Ulaanbaatar）</span>
+<span class="sd">            冰岛的首都是雷克雅未克（Reykjavik）</span>
+<span class="sd">            Human: 请问蒙古国的首都是哪里？</span>
+<span class="sd">            Assistant: 你好，根据提供的信息，蒙古国的首都是乌兰巴托（Ulaanbaatar）。</span>
+<span class="sd">            Human: 冰岛的首都是哪里呢？</span>
+<span class="sd">            Assistant: 冰岛的首都是雷克雅未克（Reykjavik）。</span>
+<span class="sd">            ...</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="o">=</span> <span class="n">max_num</span>
+
+        <span class="k">if</span> <span class="n">output_pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;Human:(.*?)Assistant:(.*?)(?=Human|$)&#39;</span>  <span class="c1"># noqa: E501</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span> <span class="o">=</span> <span class="n">enable_vllm</span>
+        <span class="n">model_params</span> <span class="o">=</span> <span class="n">model_params</span> <span class="ow">or</span> <span class="p">{}</span>
+        <span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span> <span class="ow">or</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">enable_vllm</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span> <span class="o">&gt;=</span> <span class="mi">1</span><span class="p">,</span> <span class="s1">&#39;must be executed in CUDA&#39;</span>
+            <span class="c1"># cannot initialize vllm replicas on different GPUs</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="mi">1</span>
+            <span class="k">if</span> <span class="n">model_params</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">tensor_parallel_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Set tensor_parallel_size to </span><span class="se">\</span>
+<span class="s1">                    </span><span class="si">{</span><span class="n">tensor_parallel_size</span><span class="si">}</span><span class="s1"> for vllm.&#39;</span><span class="p">)</span>
+                <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor_parallel_size</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">vllm</span><span class="o">.</span><span class="n">SamplingParams</span><span class="p">(</span><span class="o">**</span><span class="n">sampling_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span></div>
+
+
+<div class="viewcode-block" id="GenerateQAFromTextMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="n">qa_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">user</span><span class="p">,</span> <span class="n">assistant</span> <span class="o">=</span> <span class="n">match</span>
+            <span class="n">qa_list</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">user</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="n">assistant</span><span class="o">.</span><span class="n">strip</span><span class="p">()))</span>
+        <span class="k">return</span> <span class="n">qa_list</span></div>
+
+
+<div class="viewcode-block" id="GenerateQAFromTextMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">input_keys</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">input_keys</span><span class="p">))])</span>
+        <span class="n">output_keys</span> <span class="o">=</span> <span class="n">input_keys</span> <span class="o">|</span> <span class="p">{</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">}</span>
+        <span class="n">output_samples</span> <span class="o">=</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">output_keys</span><span class="p">}</span>
+
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">):</span>
+            <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span><span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span> <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">i</span><span class="p">]}]</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span><span class="p">:</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">chat</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">text</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="c1"># model is pipe</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span>
+                                 <span class="n">return_full_text</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                                 <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;generated_text&#39;</span><span class="p">]</span>
+
+            <span class="n">qa_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">qa_list</span> <span class="o">=</span> <span class="n">qa_list</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_num</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">qa_list</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">q</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="n">qa_list</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">input_k</span> <span class="ow">in</span> <span class="n">input_keys</span><span class="p">:</span>
+                        <span class="n">output_samples</span><span class="p">[</span><span class="n">input_k</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">input_k</span><span class="p">][</span><span class="n">i</span><span class="p">])</span>
+                    <span class="n">output_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+                    <span class="n">output_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="s1">&#39;No question and answer was extracted from current sample!&#39;</span>
+                <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">output_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_blur_mapper.html b/_modules/data_juicer/ops/mapper/image_blur_mapper.html
new file mode 100644
index 000000000..1eaf3d093
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_blur_mapper.html
@@ -0,0 +1,214 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_blur_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_blur_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_blur_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_blur_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="ImageBlurMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageBlurMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to blur images.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ImageBlurMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">p</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+                 <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
+                 <span class="n">radius</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param p: Probability of the image being blured.</span>
+<span class="sd">        :param blur_type: Type of blur kernel, including</span>
+<span class="sd">            [&#39;mean&#39;, &#39;box&#39;, &#39;gaussian&#39;].</span>
+<span class="sd">        :param radius: Radius of blur kernel.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;mean&#39;</span><span class="p">,</span> <span class="s1">&#39;box&#39;</span><span class="p">,</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Blur_type [</span><span class="si">{</span><span class="n">blur_type</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;mean&quot;, &quot;box&quot;, &quot;gaussian&quot;]. &#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">radius</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Radius must be &gt;= 0. &#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">p</span> <span class="o">=</span> <span class="n">p</span>
+
+        <span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageFilter</span>
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;mean&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BLUR</span>
+        <span class="k">elif</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;box&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BoxBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">GaussianBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageBlurMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+        <span class="n">processed</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">processed</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">p</span> <span class="o">&lt;</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">rand</span><span class="p">():</span>
+                <span class="n">processed</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">image_key</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">blured_image_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">image_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span>
+                        <span class="n">blured_image_key</span><span class="p">)</span> <span class="ow">or</span> <span class="n">blured_image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+                    <span class="n">blured_image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="s1">&#39;RGB&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">blur</span><span class="p">)</span>
+                    <span class="n">images</span><span class="p">[</span><span class="n">blured_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">blured_image</span>
+                    <span class="n">blured_image</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">blured_image_key</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">blured_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">blured_image</span>
+                <span class="n">processed</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">blured_image_key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_image_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">processed</span><span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">processed</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html b/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html
new file mode 100644
index 000000000..d61beb08e
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html
@@ -0,0 +1,393 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">requests</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">image_byte_to_base64</span><span class="p">,</span>
+                                        <span class="n">insert_texts_after_placeholders</span><span class="p">,</span>
+                                        <span class="n">load_image_byte</span><span class="p">,</span>
+                                        <span class="n">remove_non_special_tokens</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">SYSTEM_PROMPTS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;resoning&#39;</span><span class="p">:</span>
+    <span class="s2">&quot;You are an AI visual assistant that can analyze a single image. The task is to use the provided image, create a plausible question about the image, and provide the answer in detail.</span><span class="se">\n\n</span><span class="s2">You can create complex questions beyond describing the scene. Make the question challenging by not including the visual content details in the question so that the user needs to reason about that first.</span><span class="se">\n\n</span><span class="s2">To answer such questions, you should require first understanding the visual content, then based on the background knowledge or reasoning, either explain why the things are happening that way, or provide guides and help to user&#39;s request. </span><span class="se">\n\n</span><span class="s2">Please give the Q&amp;A content directly and separate questions and answers with Q and A.&quot;</span><span class="p">,</span>  <span class="c1"># noqa: E501</span>
+    <span class="s1">&#39;description&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;You are an AI visual assistant that can analyze a single image. The task is to use the provided image, create a reasonable question that describes the content of the image, and provide the answer in detail.</span><span class="se">\n\n</span><span class="s1">Please give the Q&amp;A content directly and separate questions and answers with Q and A.&#39;</span><span class="p">,</span>  <span class="c1"># noqa: E501</span>
+    <span class="s1">&#39;conversation&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;You are an AI visual assistant, and you are seeing a single image.</span><span class="se">\n\n</span><span class="s1">Design a conversation between you and a person asking about this image. The answers should be in a tone that a visual AI assistant is seeing the image and answering the question. Ask diverse questions and give corresponding answers.</span><span class="se">\n\n</span><span class="s1">Include questions asking about the visual content of the image, including the object types, counting the objects, object actions, object locations, relative positions between objects, etc. Only include questions that have definite answers:</span><span class="se">\n</span><span class="s1">(1) one can see the content in the image that the question asks about and can answer confidently;</span><span class="se">\n</span><span class="s1">(2) one can determine confidently from the image that it is not in the image.</span><span class="se">\n</span><span class="s1">Do not ask any question that cannot be answered confidently.</span><span class="se">\n\n</span><span class="s1">Conversation also include complex questions that are relevant to the content in the image, for example, asking about background knowledge of the objects in the image, asking to discuss about events happening in the image, etc. Again, do not ask about uncertain details.</span><span class="se">\n</span><span class="s1">Provide detailed answers when answering complex questions. For example, give detailed examples or reasoning steps to make the content more convincing and well-organized. Please give the content of the conversation directly and separate questions and answers with Q and A&#39;</span>  <span class="c1"># noqa: E501</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="call_gpt_vision_api">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">call_gpt_vision_api</span><span class="p">(</span><span class="n">api_key</span><span class="p">,</span>
+                        <span class="n">system_prompt</span><span class="p">,</span>
+                        <span class="n">user_prompt</span><span class="p">,</span>
+                        <span class="n">base64_image</span><span class="p">,</span>
+                        <span class="n">max_tokens</span><span class="o">=</span><span class="mi">500</span><span class="p">,</span>
+                        <span class="n">temperature</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span>
+                        <span class="n">model</span><span class="o">=</span><span class="s1">&#39;gpt-4-vision-preview&#39;</span><span class="p">):</span>
+    <span class="n">api_url</span> <span class="o">=</span> <span class="s1">&#39;https://api.openai.com/v1/chat/completions&#39;</span>
+    <span class="n">headers</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;Content-Type&#39;</span><span class="p">:</span> <span class="s1">&#39;application/json&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;Authorization&#39;</span><span class="p">:</span> <span class="sa">f</span><span class="s1">&#39;Bearer </span><span class="si">{</span><span class="n">api_key</span><span class="si">}</span><span class="s1">&#39;</span>
+    <span class="p">}</span>
+    <span class="n">data</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;model&#39;</span><span class="p">:</span>
+        <span class="n">model</span><span class="p">,</span>
+        <span class="s1">&#39;messages&#39;</span><span class="p">:</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span>
+            <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="p">[{</span>
+                <span class="s1">&#39;type&#39;</span><span class="p">:</span> <span class="s1">&#39;text&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;text&#39;</span><span class="p">:</span> <span class="n">user_prompt</span>
+            <span class="p">},</span> <span class="p">{</span>
+                <span class="s1">&#39;type&#39;</span><span class="p">:</span> <span class="s1">&#39;image_url&#39;</span><span class="p">,</span>
+                <span class="s1">&#39;image_url&#39;</span><span class="p">:</span> <span class="p">{</span>
+                    <span class="s1">&#39;url&#39;</span><span class="p">:</span> <span class="sa">f</span><span class="s1">&#39;data:image/jpeg;base64,</span><span class="si">{</span><span class="n">base64_image</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span>
+                    <span class="s1">&#39;detail&#39;</span><span class="p">:</span> <span class="s1">&#39;low&#39;</span>
+                <span class="p">}</span>
+            <span class="p">}]</span>
+        <span class="p">}],</span>
+        <span class="s1">&#39;max_tokens&#39;</span><span class="p">:</span>
+        <span class="n">max_tokens</span><span class="p">,</span>
+        <span class="s1">&#39;temperature&#39;</span><span class="p">:</span>
+        <span class="n">temperature</span>
+    <span class="p">}</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="n">api_url</span><span class="p">,</span> <span class="n">headers</span><span class="o">=</span><span class="n">headers</span><span class="p">,</span> <span class="n">json</span><span class="o">=</span><span class="n">data</span><span class="p">)</span>
+        <span class="n">response</span><span class="o">.</span><span class="n">raise_for_status</span><span class="p">()</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="s1">&#39;choices&#39;</span> <span class="ow">in</span> <span class="n">result</span> <span class="ow">and</span> <span class="n">result</span><span class="p">[</span><span class="s1">&#39;choices&#39;</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">result</span><span class="p">[</span><span class="s1">&#39;choices&#39;</span><span class="p">][</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;text&#39;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;No results returned from the API, return None.&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="k">except</span> <span class="n">requests</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">HTTPError</span> <span class="k">as</span> <span class="n">errh</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">errh</span><span class="o">.</span><span class="n">response</span><span class="o">.</span><span class="n">status_code</span> <span class="o">==</span> <span class="mi">401</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Invalid API key provided.&#39;</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">errh</span><span class="o">.</span><span class="n">response</span><span class="o">.</span><span class="n">status_code</span> <span class="o">==</span> <span class="mi">429</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;API request limit has been reached. Please try again later.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;HTTP error occurred: </span><span class="si">{</span><span class="n">errh</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="n">requests</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">ConnectionError</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Network error occurred. Please check your connection.&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="n">requests</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">Timeout</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;The request timed out. Please try again later.&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="n">requests</span><span class="o">.</span><span class="n">exceptions</span><span class="o">.</span><span class="n">RequestException</span> <span class="k">as</span> <span class="n">err</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warningt</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;An error occurred: </span><span class="si">{</span><span class="n">err</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;An unexpected error occurred: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;API request failed, return None.&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_captioning_from_gpt4v_mapper&#39;</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_captioning_from_gpt4v_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageCaptioningFromGPT4VMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate samples whose texts are generated based on</span>
+<span class="sd">    gpt-4-visison and the image.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;description&#39;</span><span class="p">,</span>
+                 <span class="n">api_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">max_token</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">500</span><span class="p">,</span>
+                 <span class="n">temperature</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">user_prompt</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">user_prompt_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">any_or_all</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param mode: mode of text generated from images, can be one of</span>
+<span class="sd">            [&#39;resoning&#39;, &#39;description&#39;, &#39;conversation&#39;, &#39;custom&#39;]</span>
+<span class="sd">        :param api_key: the API key to authenticate the request.</span>
+<span class="sd">        :param max_token: the maximum number of tokens to generate.</span>
+<span class="sd">            Default is 500.</span>
+<span class="sd">        :param temperature: controls the randomness of the output (range</span>
+<span class="sd">            from 0 to 1). Default is 0.</span>
+<span class="sd">        :param system_prompt: a string prompt used to set the context of a</span>
+<span class="sd">            conversation and provide global guidance or rules for the</span>
+<span class="sd">            gpt4-vision so that it can  generate responses in the expected way.</span>
+<span class="sd">            If `mode` set to `custom`, the parameter will be used.</span>
+<span class="sd">        :param user_prompt: a string prompt to guide the generation of</span>
+<span class="sd">            gpt4-vision for each samples. It&#39;s &quot;&quot; in default, which means no</span>
+<span class="sd">            prompt provided.</span>
+<span class="sd">        :param uers_prompt_key: the key name of fields in samples to store</span>
+<span class="sd">            prompts for each sample. It&#39;s used for set different prompts for</span>
+<span class="sd">            different samples. If it&#39;s none, use prompt in parameter &quot;prompt&quot;.</span>
+<span class="sd">            It&#39;s None in default.</span>
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated text in the</span>
+<span class="sd">            final datasets and the original text will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param any_or_all: keep this sample with &#39;any&#39; or &#39;all&#39; strategy of</span>
+<span class="sd">            all images. &#39;any&#39;: keep this sample if any images meet the</span>
+<span class="sd">            condition. &#39;all&#39;: keep this sample only if all images meet the</span>
+<span class="sd">            condition.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;resoning&#39;</span><span class="p">,</span> <span class="s1">&#39;description&#39;</span><span class="p">,</span> <span class="s1">&#39;conversation&#39;</span><span class="p">,</span> <span class="s1">&#39;custom&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Mode [</span><span class="si">{</span><span class="n">mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[&quot;resoning&quot;, &quot;description&quot;, &quot;conversation&quot;, &quot;custom&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s1">&#39;custom&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;The parameter `mode` set to `[custom]`. Data-Juicer &#39;</span>
+                        <span class="s1">&#39;will use `system_prompt` to generate text.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">SYSTEM_PROMPTS</span><span class="p">[</span><span class="n">mode</span><span class="p">]</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;The parameter `mode` set to [</span><span class="si">{</span><span class="n">mode</span><span class="si">}</span><span class="s1">]. Data-Juicer will &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;use default prompt to generate text.&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mode</span> <span class="o">=</span> <span class="n">mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">api_key</span> <span class="o">=</span> <span class="n">api_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_token</span> <span class="o">=</span> <span class="n">max_token</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">temperature</span> <span class="o">=</span> <span class="n">temperature</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt</span> <span class="o">=</span> <span class="n">user_prompt</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt_key</span> <span class="o">=</span> <span class="n">user_prompt_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">any_or_all</span> <span class="o">=</span> <span class="n">any_or_all</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+
+        <span class="c1"># report a warning when both user_prompt and user_prompt_key are set</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt_key</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Both the parameter `user_prompt` and `user_prompt_key` are &#39;</span>
+                <span class="s1">&#39;set. Data-Juicer will consider `user_prompt_key` first.&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># the generated results</span>
+        <span class="n">generated_sample</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="n">generated_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="c1"># load all image(s)</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">images</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">loaded_image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+                <span class="c1"># avoid loading the same images</span>
+                <span class="n">image</span> <span class="o">=</span> <span class="n">load_image_byte</span><span class="p">(</span><span class="n">loaded_image_key</span><span class="p">)</span>
+                <span class="n">images</span><span class="p">[</span><span class="n">loaded_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">image</span>
+
+        <span class="c1"># construct user prompts</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt_key</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">user_prompt_key</span><span class="p">],</span>
+                                               <span class="nb">str</span><span class="p">):</span>
+            <span class="c1"># check user_prompt_key is not None, and it&#39;s a str in the sample</span>
+            <span class="n">prompt_texts</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">user_prompt_key</span><span class="p">]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">user_prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="c1"># check prompt is not None, and it&#39;s a str</span>
+            <span class="n">prompt_texts</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_prompt</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">prompt_texts</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="c1"># do generation for each image chunk by chunk</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks or contents after the last eoc token</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">img_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">)</span>
+                <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="n">remove_non_special_tokens</span><span class="p">(</span>
+                    <span class="n">chunk</span><span class="p">)</span>
+                <span class="n">generated_text_single_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">img_count</span><span class="p">]:</span>
+                    <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span>
+                    <span class="n">res</span> <span class="o">=</span> <span class="n">call_gpt_vision_api</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">api_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span><span class="p">,</span>
+                                              <span class="n">prompt_texts</span><span class="p">,</span>
+                                              <span class="n">image_byte_to_base64</span><span class="p">(</span><span class="n">image</span><span class="p">),</span>
+                                              <span class="bp">self</span><span class="o">.</span><span class="n">max_token</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">temperature</span><span class="p">)</span>
+                    <span class="n">generated_text_single_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">res</span><span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;all&#39;</span> <span class="ow">and</span> <span class="ow">not</span> <span class="nb">all</span><span class="p">(</span>
+                        <span class="n">generated_text_single_chunk</span><span class="p">):</span>
+                    <span class="k">return</span> <span class="p">[]</span>
+
+                <span class="c1"># insert the generated text according to given mode</span>
+                <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">]</span> <span class="o">*</span> <span class="n">img_count</span>
+                <span class="n">new_generated_text_per_chunk</span> <span class="o">=</span> <span class="n">insert_texts_after_placeholders</span><span class="p">(</span>
+                    <span class="n">original_string</span><span class="o">=</span><span class="n">text_with_only_special_tokens</span><span class="p">,</span>
+                    <span class="n">placeholders</span><span class="o">=</span><span class="n">place_holders</span><span class="p">,</span>
+                    <span class="n">new_texts</span><span class="o">=</span><span class="n">generated_text_single_chunk</span><span class="p">)</span>
+                <span class="n">generated_sample</span><span class="p">[</span>
+                    <span class="bp">self</span><span class="o">.</span>
+                    <span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_generated_text_per_chunk</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>  <span class="c1"># noqa: E501</span>
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">img_count</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">any_or_all</span> <span class="o">==</span> <span class="s1">&#39;any&#39;</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">remove_special_tokens</span><span class="p">(</span>
+                <span class="n">generated_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="k">return</span> <span class="p">[</span><span class="n">generated_sample</span><span class="p">]</span>
+
+<div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_generation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do generation for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_generation</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_generation</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_captioning_mapper.html b/_modules/data_juicer/ops/mapper/image_captioning_mapper.html
new file mode 100644
index 000000000..be4ec399e
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_captioning_mapper.html
@@ -0,0 +1,426 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_captioning_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_captioning_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_captioning_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">random</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span>
+                                        <span class="n">insert_texts_after_placeholders</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">,</span> <span class="n">remove_non_special_tokens</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">simhash</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;simhash&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_captioning_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="ImageCaptioningMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageCaptioningMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate samples whose captions are generated based on</span>
+<span class="sd">    another model and the figure.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageCaptioningMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_img2seq</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip2-opt-2.7b&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">caption_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">keep_candidate_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;random_any&#39;</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">prompt_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_img2seq: model name on huggingface to generate caption</span>
+<span class="sd">        :param caption_num: how many candidate captions to generate</span>
+<span class="sd">            for each image</span>
+<span class="sd">        :param keep_candidate_mode: retain strategy for the generated</span>
+<span class="sd">            $caption_num$ candidates.</span>
+
+<span class="sd">            &#39;random_any&#39;: Retain the random one from generated captions</span>
+
+<span class="sd">            &#39;similar_one_simhash&#39;: Retain the generated one that is most</span>
+<span class="sd">                similar to the original caption</span>
+
+<span class="sd">            &#39;all&#39;: Retain all generated captions by concatenation</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ list of input samples, whose batch</span>
+<span class="sd">            size is $b$, and denote caption_num as $M$.</span>
+<span class="sd">            The number of total samples after generation is $2Nb$ when</span>
+<span class="sd">            keep_original_sample is True and $Nb$ when keep_original_sample is</span>
+<span class="sd">            False. For &#39;random_any&#39; and &#39;similar_one_simhash&#39; mode,</span>
+<span class="sd">            it&#39;s $(1+M)Nb$ for &#39;all&#39; mode when keep_original_sample is True</span>
+<span class="sd">            and $MNb$ when keep_original_sample is False.</span>
+
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated captions in the</span>
+<span class="sd">            final datasets and the original captions will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param prompt: a string prompt to guide the generation of blip2 model</span>
+<span class="sd">            for all samples globally. It&#39;s None in default, which means no</span>
+<span class="sd">            prompt provided.</span>
+<span class="sd">        :param prompt_key: the key name of fields in samples to store prompts</span>
+<span class="sd">            for each sample. It&#39;s used for set different prompts for different</span>
+<span class="sd">            samples. If it&#39;s none, use prompt in parameter &quot;prompt&quot;. It&#39;s None</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;16GB&#39;</span><span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span>
+        <span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">keep_candidate_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[&quot;random_any&quot;, &quot;similar_one_simhash&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_img2seq</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span> <span class="o">=</span> <span class="n">caption_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">=</span> <span class="n">keep_candidate_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">=</span> <span class="n">prompt</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> <span class="o">=</span> <span class="n">prompt_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">1</span>
+        <span class="k">elif</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># report a warning when both prompt and prompt_key are set</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Both the parameter `prompt` and `prompt_key` are &#39;</span>
+                <span class="s1">&#39;set. Data-Juicer will consider `prompt_key` first.&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ori_sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+
+<span class="sd">        :param ori_sample: a single data sample before applying generation</span>
+<span class="sd">        :return: batched results after generation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">ori_sample</span> <span class="ow">or</span> \
+                <span class="ow">not</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># the generated results</span>
+        <span class="n">generated_samples</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="k">for</span> <span class="n">generated_sample</span> <span class="ow">in</span> <span class="n">generated_samples</span><span class="p">:</span>
+            <span class="n">generated_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="c1"># 1. load all image(s)</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">images</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">loaded_image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+                <span class="c1"># avoid loading the same images</span>
+                <span class="n">image</span> <span class="o">=</span> <span class="n">load_image</span><span class="p">(</span><span class="n">loaded_image_key</span><span class="p">)</span>
+                <span class="n">images</span><span class="p">[</span><span class="n">loaded_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">image</span>
+
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># we follow such assumption:</span>
+        <span class="c1"># all text/img/video/audio data within a chunk are correlated.</span>
+        <span class="c1"># As a result,</span>
+        <span class="c1"># the original text will be removed,</span>
+        <span class="c1"># the generated text will be placed following each SpecialTokens.img</span>
+        <span class="c1"># and the original special tokens are kept in an order-preserving way.</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="c1"># do generation for each image chunk by chunk</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks or contents after the last eoc token</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+
+            <span class="n">img_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">)</span>
+            <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="n">remove_non_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+            <span class="n">image_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">image_key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">img_count</span><span class="p">]:</span>
+                <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">image_key</span><span class="p">]</span>
+                <span class="n">image_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+
+            <span class="c1"># 2. generate candidate caption(s) in batch manner</span>
+            <span class="n">generated_text_candidates_single_chunk</span> <span class="o">=</span> \
+                <span class="p">[[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">)]</span>
+            <span class="c1"># an assistant 2-D array,</span>
+            <span class="c1"># generated_text_candidates_single_chunk[i][j] indicates</span>
+            <span class="c1"># the $i$-th generated candidate for the $j$-th image</span>
+
+            <span class="c1"># construct prompts</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> \
+                    <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">],</span> <span class="nb">str</span><span class="p">):</span>
+                <span class="c1"># check prompt_key is not None, and it&#39;s a str in the sample</span>
+                <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">]]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">image_chunk</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                <span class="c1"># check prompt is not None, and it&#39;s a str</span>
+                <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">image_chunk</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">prompt_texts</span> <span class="o">=</span> <span class="kc">None</span>
+
+            <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">images</span><span class="o">=</span><span class="n">image_chunk</span><span class="p">,</span>
+                               <span class="n">text</span><span class="o">=</span><span class="n">prompt_texts</span><span class="p">,</span>
+                               <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">):</span>
+                <span class="n">generated_ids</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
+                                               <span class="n">max_new_tokens</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+                                               <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                <span class="n">generated_text</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span>
+                    <span class="n">generated_ids</span><span class="p">,</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">generated_text</span>
+
+            <span class="c1"># 3. insert a list of generated captions into the positions of</span>
+            <span class="c1"># subsequent placeholders in the original string</span>
+            <span class="n">new_generated_text_all_images</span> <span class="o">=</span> \
+                <span class="p">[[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)]</span>
+            <span class="c1"># new_generated_text_all_images is a helper array, element [i][j]</span>
+            <span class="c1"># denotes the reduced $i$-th result for the $j$-th image</span>
+
+            <span class="c1"># reduce the captions according to given mode image by image</span>
+            <span class="k">for</span> <span class="n">j</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">img_count</span><span class="p">):</span>
+                <span class="n">new_generated_text_per_image</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reduce_captions_per_image</span><span class="p">(</span>
+                    <span class="n">chunk</span><span class="p">,</span> <span class="p">[</span>
+                        <span class="n">captions</span><span class="p">[</span><span class="n">j</span><span class="p">]</span>
+                        <span class="k">for</span> <span class="n">captions</span> <span class="ow">in</span> <span class="n">generated_text_candidates_single_chunk</span>
+                    <span class="p">])</span>
+                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">==</span> \
+                       <span class="nb">len</span><span class="p">(</span><span class="n">new_generated_text_per_image</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">new_generated_text_per_image</span><span class="p">)):</span>
+                    <span class="n">new_generated_text_all_images</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                        <span class="n">new_generated_text_per_image</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+
+            <span class="c1"># insert the captions according to given mode</span>
+            <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">]</span> <span class="o">*</span> <span class="n">img_count</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">):</span>
+                <span class="n">new_generated_text_per_chunk</span> <span class="o">=</span> <span class="n">insert_texts_after_placeholders</span><span class="p">(</span>
+                    <span class="n">original_string</span><span class="o">=</span><span class="n">text_with_only_special_tokens</span><span class="p">,</span>
+                    <span class="n">placeholders</span><span class="o">=</span><span class="n">place_holders</span><span class="p">,</span>
+                    <span class="n">new_texts</span><span class="o">=</span><span class="n">new_generated_text_all_images</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+                <span class="n">generated_samples</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> \
+                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_generated_text_per_chunk</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">img_count</span>
+
+        <span class="k">return</span> <span class="n">generated_samples</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_reduce_captions_per_image</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">chunk</span><span class="p">,</span>
+                                   <span class="n">generated_text_candidates_single_chunk</span><span class="p">):</span>
+        <span class="n">new_generated_text_per_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;random_any&#39;</span><span class="p">:</span>
+            <span class="n">new_generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">generated_text_candidates_single_chunk</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;all&#39;</span><span class="p">:</span>
+            <span class="n">new_generated_text_per_chunk</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">:</span>
+
+            <span class="kn">from</span><span class="w"> </span><span class="nn">..deduplicator.document_simhash_deduplicator</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">DocumentSimhashDeduplicator</span>
+            <span class="n">ori_normal_text</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+            <span class="c1"># using a simhash OP to calculate their similarity</span>
+            <span class="c1"># NOTE: simhash is just one method to calculate the similarities</span>
+            <span class="c1"># between texts, but not the most accurate one. More methods (e.g.</span>
+            <span class="c1"># embedding-based, ...) will be added.</span>
+            <span class="n">op_simhash</span> <span class="o">=</span> <span class="n">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">window_size</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span><span class="p">)</span>
+            <span class="n">ori_text_hash</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">({</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                                         <span class="n">ori_normal_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+            <span class="n">generated_text_hashes</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                    <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">(</span>
+                        <span class="p">{</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                         <span class="n">candidate_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">candidate_text</span> <span class="ow">in</span> <span class="n">generated_text_candidates_single_chunk</span>
+            <span class="p">]</span>
+            <span class="n">hamming_distances</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">simhash</span><span class="o">.</span><span class="n">num_differing_bits</span><span class="p">(</span><span class="n">ori_text_hash</span><span class="p">,</span> <span class="n">generated_text_hash</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">generated_text_hash</span> <span class="ow">in</span> <span class="n">generated_text_hashes</span>
+            <span class="p">]</span>
+            <span class="n">max_index</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">hamming_distances</span><span class="p">)),</span>
+                            <span class="n">key</span><span class="o">=</span><span class="n">hamming_distances</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+            <span class="n">new_generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span><span class="n">max_index</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">new_generated_text_per_chunk</span>
+
+<div class="viewcode-block" id="ImageCaptioningMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ input sample list with batch</span>
+<span class="sd">            size as $b$, and denote caption_num as $M$.</span>
+<span class="sd">            the number of total samples after generation is $2Nb$</span>
+<span class="sd">            for &#39;random_any&#39; and &#39;similar_one&#39; mode,</span>
+<span class="sd">            and $(1+M)Nb$ for &#39;all&#39; mode.</span>
+
+<span class="sd">        :param samples:</span>
+<span class="sd">        :return:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_generation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do generation for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_generation</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_generation</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html b/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html
new file mode 100644
index 000000000..5a5c3de22
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html
@@ -0,0 +1,361 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_diffusion_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_diffusion_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_diffusion_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">Image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">,</span> <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_diffusion_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="ImageDiffusionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageDiffusionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Generate image by diffusion model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ImageDiffusionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_diffusion</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;CompVis/stable-diffusion-v1-4&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">torch_dtype</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;fp32&#39;</span><span class="p">,</span>
+                 <span class="n">revision</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;main&#39;</span><span class="p">,</span>
+                 <span class="n">strength</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
+                 <span class="n">guidance_scale</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">7.5</span><span class="p">,</span>
+                 <span class="n">aug_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">caption_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">hf_img2seq</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip2-opt-2.7b&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_diffusion: diffusion model name on huggingface to generate</span>
+<span class="sd">            the image.</span>
+<span class="sd">        :param torch_dtype: the floating point type used to load the diffusion</span>
+<span class="sd">            model. Can be one of [&#39;fp32&#39;, &#39;fp16&#39;, &#39;bf16&#39;]</span>
+<span class="sd">        :param revision: The specific model version to use. It can be a</span>
+<span class="sd">            branch name, a tag name, a commit id, or any identifier allowed</span>
+<span class="sd">            by Git.</span>
+<span class="sd">        :param strength: Indicates extent to transform the reference image.</span>
+<span class="sd">            Must be between 0 and 1. image is used as a starting point and</span>
+<span class="sd">            more noise is added the higher the strength. The number of</span>
+<span class="sd">            denoising steps depends on the amount of noise initially added.</span>
+<span class="sd">            When strength is 1, added noise is maximum and the denoising</span>
+<span class="sd">            process runs for the full number of iterations specified in</span>
+<span class="sd">            num_inference_steps. A value of 1 essentially ignores image.</span>
+<span class="sd">        :param guidance_scale: A higher guidance scale value encourages the</span>
+<span class="sd">            model to generate images closely linked to the text prompt at the</span>
+<span class="sd">            expense of lower image quality. Guidance scale is enabled when</span>
+<span class="sd">            guidance_scale &gt; 1.</span>
+<span class="sd">        :param aug_num: The image number to be produced by stable-diffusion</span>
+<span class="sd">            model.</span>
+<span class="sd">        :param keep_candidate_mode: retain strategy for the generated</span>
+<span class="sd">            $caption_num$ candidates.</span>
+
+<span class="sd">            &#39;random_any&#39;: Retain the random one from generated captions</span>
+
+<span class="sd">            &#39;similar_one_simhash&#39;: Retain the generated one that is most</span>
+<span class="sd">                similar to the original caption</span>
+
+<span class="sd">            &#39;all&#39;: Retain all generated captions by concatenation</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ list of input samples, whose batch</span>
+<span class="sd">            size is $b$, and denote caption_num as $M$.</span>
+<span class="sd">            The number of total samples after generation is $2Nb$ when</span>
+<span class="sd">            keep_original_sample is True and $Nb$ when keep_original_sample is</span>
+<span class="sd">            False. For &#39;random_any&#39; and &#39;similar_one_simhash&#39; mode,</span>
+<span class="sd">            it&#39;s $(1+M)Nb$ for &#39;all&#39; mode when keep_original_sample is True</span>
+<span class="sd">            and $MNb$ when keep_original_sample is False.</span>
+
+<span class="sd">        :param caption_key: the key name of fields in samples to store captions</span>
+<span class="sd">            for each images. It can be a string if there is only one image in</span>
+<span class="sd">            each sample. Otherwise, it should be a list. If it&#39;s none,</span>
+<span class="sd">            ImageDiffusionMapper will produce captions for each images.</span>
+<span class="sd">        :param hf_img2seq: model name on huggingface to generate caption if</span>
+<span class="sd">            caption_key is None.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;8GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">strength</span> <span class="o">=</span> <span class="n">strength</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">guidance_scale</span> <span class="o">=</span> <span class="n">guidance_scale</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">=</span> <span class="n">aug_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">caption_key</span> <span class="o">=</span> <span class="n">caption_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">=</span> <span class="s1">&#39;A photo of a &#39;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">caption_key</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.image_captioning_mapper</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageCaptioningMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_generate_caption</span> <span class="o">=</span> <span class="n">ImageCaptioningMapper</span><span class="p">(</span>
+                <span class="n">hf_img2seq</span><span class="o">=</span><span class="n">hf_img2seq</span><span class="p">,</span>
+                <span class="n">keep_original_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">prompt</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;diffusion&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_diffusion</span><span class="p">,</span>
+            <span class="n">diffusion_type</span><span class="o">=</span><span class="s1">&#39;image2image&#39;</span><span class="p">,</span>
+            <span class="n">torch_dtype</span><span class="o">=</span><span class="n">torch_dtype</span><span class="p">,</span>
+            <span class="n">revision</span><span class="o">=</span><span class="n">revision</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_real_guidance</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">caption</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">image</span><span class="p">:</span> <span class="n">Image</span><span class="o">.</span><span class="n">Image</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">canvas</span> <span class="o">=</span> <span class="n">image</span><span class="o">.</span><span class="n">resize</span><span class="p">((</span><span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">),</span> <span class="n">Image</span><span class="o">.</span><span class="n">BILINEAR</span><span class="p">)</span>
+        <span class="n">prompt</span> <span class="o">=</span> <span class="n">caption</span>
+
+        <span class="n">diffusion_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="n">model_key</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span>
+                                    <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                    <span class="n">use_cuda</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">image</span><span class="o">=</span><span class="n">canvas</span><span class="p">,</span>
+                      <span class="n">prompt</span><span class="o">=</span><span class="p">[</span><span class="n">prompt</span><span class="p">],</span>
+                      <span class="n">strength</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">strength</span><span class="p">,</span>
+                      <span class="n">guidance_scale</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guidance_scale</span><span class="p">)</span>
+
+        <span class="n">has_nsfw_concept</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="k">while</span> <span class="n">has_nsfw_concept</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">diffusion_model</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+            <span class="n">has_nsfw_concept</span> <span class="o">=</span> <span class="p">(</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">safety_checker</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="ow">and</span> <span class="n">outputs</span><span class="o">.</span><span class="n">nsfw_content_detected</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="n">canvas</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">images</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">resize</span><span class="p">(</span><span class="n">image</span><span class="o">.</span><span class="n">size</span><span class="p">,</span> <span class="n">Image</span><span class="o">.</span><span class="n">BILINEAR</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">canvas</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ori_sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        :param ori_sample: a single data sample before applying generation</span>
+<span class="sd">        :return: batched results after generation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">ori_sample</span> <span class="ow">or</span> \
+                <span class="ow">not</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">ori_sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                    <span class="n">loaded_image_keys</span><span class="p">,</span>
+                                                    <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="c1"># load captions</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">caption_key</span><span class="p">:</span>
+            <span class="n">captions</span> <span class="o">=</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_key</span><span class="p">]</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">captions</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+                <span class="c1"># one caption for all images</span>
+                <span class="n">captions</span> <span class="o">=</span> <span class="p">[</span><span class="n">captions</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">images</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">assert</span> <span class="nb">len</span><span class="p">(</span><span class="n">captions</span><span class="p">)</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span>
+                    <span class="n">images</span>
+                <span class="p">),</span> <span class="s1">&#39;The num of captions must match the num of images.&#39;</span>
+            <span class="n">captions</span> <span class="o">=</span> <span class="p">[</span><span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">captions</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">caption_samples</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span> <span class="p">[</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">image</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">images</span><span class="p">),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">:</span> <span class="p">[[</span><span class="n">k</span><span class="p">]</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span><span class="p">]</span>
+            <span class="p">}</span>
+            <span class="n">caption_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_generate_caption</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">caption_samples</span><span class="p">,</span>
+                                                               <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="n">captions</span> <span class="o">=</span> <span class="n">caption_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+            <span class="n">captions</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">+</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">captions</span>
+            <span class="p">]</span>
+
+        <span class="c1"># the generated results</span>
+        <span class="n">generated_samples</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span><span class="p">)</span>
+        <span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">aug_id</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span><span class="p">):</span>
+            <span class="n">diffusion_image_keys</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_image_keys</span><span class="p">):</span>
+                <span class="n">related_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_parameters</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">,</span> <span class="n">caption</span><span class="o">=</span><span class="n">captions</span><span class="p">[</span><span class="n">index</span><span class="p">])</span>
+                <span class="n">diffusion_image_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span>
+                    <span class="n">value</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span> <span class="o">**</span><span class="n">related_parameters</span><span class="p">)</span>
+                <span class="n">diffusion_image_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">diffusion_image_key</span><span class="p">)</span>
+                <span class="c1"># TODO: duplicated generation if image is reused</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">diffusion_image_key</span>
+                                      <span class="p">)</span> <span class="ow">or</span> <span class="n">diffusion_image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">images</span><span class="p">:</span>
+                    <span class="n">diffusion_image</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_real_guidance</span><span class="p">(</span><span class="n">captions</span><span class="p">[</span><span class="n">index</span><span class="p">],</span>
+                                                          <span class="n">images</span><span class="p">[</span><span class="n">value</span><span class="p">],</span>
+                                                          <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+                    <span class="n">images</span><span class="p">[</span><span class="n">diffusion_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">diffusion_image</span>
+                    <span class="n">diffusion_image</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">diffusion_image_key</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                        <span class="n">generated_samples</span><span class="p">[</span><span class="n">aug_id</span><span class="p">][</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span>
+                            <span class="n">diffusion_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">diffusion_image</span>
+            <span class="n">generated_samples</span><span class="p">[</span><span class="n">aug_id</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">diffusion_image_keys</span>
+
+        <span class="k">return</span> <span class="n">generated_samples</span>
+
+<div class="viewcode-block" id="ImageDiffusionMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            Note:</span>
+<span class="sd">                This is a batched_OP, whose the input and output type are</span>
+<span class="sd">                both list. Suppose there are $N$ input sample list with batch</span>
+<span class="sd">                size as $b$, and denote aug_num as $M$.</span>
+<span class="sd">                the number of total samples after generation is  $(1+M)Nb$.</span>
+
+<span class="sd">            :param samples:</span>
+<span class="sd">            :return:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+
+        <span class="c1"># do generation for each sample within the batch</span>
+        <span class="n">samples_after_generation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_generation</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_generation</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html b/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html
new file mode 100644
index 000000000..f546beefb
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html
@@ -0,0 +1,254 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_face_blur_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_face_blur_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_face_blur_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageFilter</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeFloat</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">detect_faces</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+                                        <span class="n">load_image</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_face_blur_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="ImageFaceBlurMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageFaceBlurMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to blur faces detected in images.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;scaleFactor&#39;</span><span class="p">:</span> <span class="mf">1.1</span><span class="p">,</span>
+        <span class="s1">&#39;minNeighbors&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;minSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="s1">&#39;maxSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="ImageFaceBlurMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
+                 <span class="n">radius</span><span class="p">:</span> <span class="n">NonNegativeFloat</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param cv_classifier: OpenCV classifier path for face detection.</span>
+<span class="sd">            By default, we will use &#39;haarcascade_frontalface_alt.xml&#39;.</span>
+<span class="sd">        :param blur_type: Type of blur kernel, including</span>
+<span class="sd">            [&#39;mean&#39;, &#39;box&#39;, &#39;gaussian&#39;].</span>
+<span class="sd">        :param radius: Radius of blur kernel.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">cv_classifier</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">cv_classifier</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">haarcascades</span><span class="p">,</span>
+                                         <span class="s1">&#39;haarcascade_frontalface_alt.xml&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;mean&#39;</span><span class="p">,</span> <span class="s1">&#39;box&#39;</span><span class="p">,</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Blur_type [</span><span class="si">{</span><span class="n">blur_type</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;mean&quot;, &quot;box&quot;, &quot;gaussian&quot;]. &#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">radius</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Radius must be &gt;= 0. &#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;mean&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BLUR</span>
+        <span class="k">elif</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;box&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BoxBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">GaussianBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">blur_type</span> <span class="o">=</span> <span class="n">blur_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">radius</span> <span class="o">=</span> <span class="n">radius</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_default_kwargs</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;opencv_classifier&#39;</span><span class="p">,</span>
+                                       <span class="n">model_path</span><span class="o">=</span><span class="n">cv_classifier</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ImageFaceBlurMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+
+        <span class="c1"># detect faces</span>
+        <span class="n">face_detections</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">image</span> <span class="ow">in</span> <span class="n">images</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">face_detections</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span>
+                                                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;detections: </span><span class="si">{</span><span class="n">face_detections</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="c1"># blur face regions</span>
+        <span class="n">key_mapping</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">image</span> <span class="ow">in</span> <span class="n">images</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">dets</span> <span class="o">=</span> <span class="n">face_detections</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+            <span class="c1"># only blur when detected face</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dets</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">blured_image</span> <span class="o">=</span> <span class="n">image</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+                <span class="k">for</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span> <span class="ow">in</span> <span class="n">dets</span><span class="p">:</span>
+                    <span class="n">box</span> <span class="o">=</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">x</span> <span class="o">+</span> <span class="n">w</span><span class="p">,</span> <span class="n">y</span> <span class="o">+</span> <span class="n">h</span><span class="p">)</span>
+                    <span class="n">blured_roi</span> <span class="o">=</span> <span class="n">image</span><span class="o">.</span><span class="n">crop</span><span class="p">(</span><span class="n">box</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">blur</span><span class="p">)</span>
+                    <span class="n">blured_image</span><span class="o">.</span><span class="n">paste</span><span class="p">(</span><span class="n">blured_roi</span><span class="p">,</span> <span class="n">box</span><span class="p">)</span>
+                <span class="n">blured_image_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+                <span class="n">blured_image</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">blured_image_key</span><span class="p">)</span>
+                <span class="n">key_mapping</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">blured_image_key</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">blured_image_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">blured_image</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">key_mapping</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_image_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">key_mapping</span><span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">key_mapping</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_image_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/image_tagging_mapper.html b/_modules/data_juicer/ops/mapper/image_tagging_mapper.html
new file mode 100644
index 000000000..27269378a
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/image_tagging_mapper.html
@@ -0,0 +1,199 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.image_tagging_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.image_tagging_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.image_tagging_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">Counter</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_IMAGES</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">ram</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ram&#39;</span><span class="p">,</span> <span class="s1">&#39;ram&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;image_tagging_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="ImageTaggingMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ImageTaggingMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate image tags.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="ImageTaggingMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">tag_field_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">image_tags</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param tag_field_name: the field name to store the tags. It&#39;s</span>
+<span class="sd">            &quot;image_tags&quot; in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;9GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;recognizeAnything&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+            <span class="n">input_size</span><span class="o">=</span><span class="mi">384</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">transform</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">get_transform</span><span class="p">(</span><span class="n">image_size</span><span class="o">=</span><span class="mi">384</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="o">=</span> <span class="n">tag_field_name</span></div>
+
+
+<div class="viewcode-block" id="ImageTaggingMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no image in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([[]],</span>
+                                                                <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load images</span>
+        <span class="n">loaded_image_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">images</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_image_keys</span><span class="p">,</span> <span class="n">load_image</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">image_tags</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_image_keys</span><span class="p">):</span>
+            <span class="n">image</span> <span class="o">=</span> <span class="n">images</span><span class="p">[</span><span class="n">value</span><span class="p">]</span>
+
+            <span class="n">image_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">transform</span><span class="p">(</span><span class="n">image</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                <span class="nb">next</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">())</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="n">tags</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate_tag</span><span class="p">(</span><span class="n">image_tensor</span><span class="p">)</span>
+
+            <span class="n">words</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">tags</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;|&#39;</span><span class="p">)]</span>
+            <span class="n">word_count</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
+            <span class="n">sorted_word_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">word_count</span><span class="o">.</span><span class="n">most_common</span><span class="p">()]</span>
+            <span class="n">image_tags</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">sorted_word_list</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">))</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">image_tags</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
new file mode 100644
index 000000000..e2d7cccec
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
@@ -0,0 +1,275 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.nlpaug_en_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.nlpaug_en_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">copy</span><span class="w"> </span><span class="kn">import</span> <span class="n">deepcopy</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">nlpaug</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nlpaug&#39;</span><span class="p">,</span> <span class="s1">&#39;nlpaug&#39;</span><span class="p">)</span>
+<span class="n">nac</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nac&#39;</span><span class="p">,</span> <span class="s1">&#39;nlpaug.augmenter.char&#39;</span><span class="p">)</span>
+<span class="n">naw</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;naw&#39;</span><span class="p">,</span> <span class="s1">&#39;nlpaug.augmenter.word&#39;</span><span class="p">)</span>
+<span class="n">naf</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;naf&#39;</span><span class="p">,</span> <span class="s1">&#39;nlpaug.flow&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;nlpaug_en_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="NlpaugEnMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">NlpaugEnMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in English based on nlpaug library.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="NlpaugEnMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">aug_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">delete_random_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">swap_random_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">spelling_error_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">split_random_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">keyboard_error_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">ocr_error_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">delete_random_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">swap_random_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">insert_random_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method. All augmentation methods use default parameters</span>
+<span class="sd">        in default. We recommend you to only use 1-3 augmentation methods at a</span>
+<span class="sd">        time. Otherwise, the semantics of samples might be changed</span>
+<span class="sd">        significantly.</span>
+
+<span class="sd">        :param sequential: whether combine all augmentation methods to a</span>
+<span class="sd">            sequence. If it&#39;s True, a sample will be augmented by all opened</span>
+<span class="sd">            augmentation methods sequentially. If it&#39;s False, each opened</span>
+<span class="sd">            augmentation method would generate its augmented samples</span>
+<span class="sd">            independently.</span>
+<span class="sd">        :param aug_num: number of augmented samples to be generated. If</span>
+<span class="sd">            `sequential` is True, there will be total aug_num augmented samples</span>
+<span class="sd">            generated. If it&#39;s False, there will be (aug_num *</span>
+<span class="sd">            #opened_aug_method) augmented samples generated.</span>
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated texts in the final</span>
+<span class="sd">            datasets and the original texts will be removed. It&#39;s True in</span>
+<span class="sd">            default.</span>
+<span class="sd">        :param delete_random_word: whether to open the augmentation method of</span>
+<span class="sd">            deleting random words from the original texts. e.g. &quot;I love LLM&quot;</span>
+<span class="sd">            --&gt; &quot;I LLM&quot;</span>
+<span class="sd">        :param swap_random_word: whether to open the augmentation method of</span>
+<span class="sd">            swapping random contiguous words in the original texts. e.g. &quot;I</span>
+<span class="sd">            love LLM&quot; --&gt; &quot;Love I LLM&quot;</span>
+<span class="sd">        :param spelling_error_word: whether to open the augmentation method of</span>
+<span class="sd">            simulating the spelling error for words in the original texts. e.g.</span>
+<span class="sd">            &quot;I love LLM&quot; --&gt; &quot;Ai love LLM&quot;</span>
+<span class="sd">        :param split_random_word: whether to open the augmentation method of</span>
+<span class="sd">            splitting words randomly with whitespaces in the original texts.</span>
+<span class="sd">            e.g. &quot;I love LLM&quot; --&gt; &quot;I love LL M&quot;</span>
+<span class="sd">        :param keyboard_error_char: whether to open the augmentation method of</span>
+<span class="sd">            simulating the keyboard error for characters in the original texts.</span>
+<span class="sd">            e.g. &quot;I love LLM&quot; --&gt; &quot;I ;ov4 LLM&quot;</span>
+<span class="sd">        :param ocr_error_char: whether to open the augmentation method of</span>
+<span class="sd">            simulating the OCR error for characters in the original texts.</span>
+<span class="sd">            e.g. &quot;I love LLM&quot; --&gt; &quot;I 10ve LLM&quot;</span>
+<span class="sd">        :param delete_random_char: whether to open the augmentation method of</span>
+<span class="sd">            deleting random characters from the original texts. e.g. &quot;I love</span>
+<span class="sd">            LLM&quot; --&gt; &quot;I oe LLM&quot;</span>
+<span class="sd">        :param swap_random_char: whether to open the augmentation method of</span>
+<span class="sd">            swapping random contiguous characters in the original texts.</span>
+<span class="sd">            e.g. &quot;I love LLM&quot; --&gt; &quot;I ovle LLM&quot;</span>
+<span class="sd">        :param insert_random_char: whether to open the augmentation method of</span>
+<span class="sd">            inserting random characters into the original texts. e.g. &quot;I love</span>
+<span class="sd">            LLM&quot; --&gt; &quot;I ^lKove LLM&quot;</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">=</span> <span class="n">aug_num</span>
+        <span class="k">if</span> <span class="n">aug_num</span> <span class="o">&gt;=</span> <span class="mi">10</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Relatively large augmentation number [</span><span class="si">{</span><span class="n">aug_num</span><span class="si">}</span><span class="s1">]&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39; might generate large number of new samples and &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;requires more memory and disk space.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="o">=</span> <span class="n">sequential</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+
+        <span class="n">aug_pipeline</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># word level</span>
+        <span class="n">Action</span> <span class="o">=</span> <span class="n">nlpaug</span><span class="o">.</span><span class="n">util</span><span class="o">.</span><span class="n">Action</span>
+        <span class="k">if</span> <span class="n">delete_random_word</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">naw</span><span class="o">.</span><span class="n">RandomWordAug</span><span class="p">(</span><span class="n">action</span><span class="o">=</span><span class="n">Action</span><span class="o">.</span><span class="n">DELETE</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">swap_random_word</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">naw</span><span class="o">.</span><span class="n">RandomWordAug</span><span class="p">(</span><span class="n">action</span><span class="o">=</span><span class="n">Action</span><span class="o">.</span><span class="n">SWAP</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">spelling_error_word</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">naw</span><span class="o">.</span><span class="n">SpellingAug</span><span class="p">())</span>
+        <span class="k">if</span> <span class="n">split_random_word</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">naw</span><span class="o">.</span><span class="n">SplitAug</span><span class="p">())</span>
+
+        <span class="c1"># char level</span>
+        <span class="k">if</span> <span class="n">keyboard_error_char</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nac</span><span class="o">.</span><span class="n">KeyboardAug</span><span class="p">())</span>
+        <span class="k">if</span> <span class="n">ocr_error_char</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nac</span><span class="o">.</span><span class="n">OcrAug</span><span class="p">())</span>
+        <span class="k">if</span> <span class="n">delete_random_char</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nac</span><span class="o">.</span><span class="n">RandomCharAug</span><span class="p">(</span><span class="n">action</span><span class="o">=</span><span class="n">Action</span><span class="o">.</span><span class="n">DELETE</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">swap_random_char</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nac</span><span class="o">.</span><span class="n">RandomCharAug</span><span class="p">(</span><span class="n">action</span><span class="o">=</span><span class="n">Action</span><span class="o">.</span><span class="n">SWAP</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">insert_random_char</span><span class="p">:</span>
+            <span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nac</span><span class="o">.</span><span class="n">RandomCharAug</span><span class="p">(</span><span class="n">action</span><span class="o">=</span><span class="n">Action</span><span class="o">.</span><span class="n">INSERT</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">aug</span> <span class="o">=</span> <span class="n">naf</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="n">aug_pipeline</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">aug</span> <span class="o">=</span> <span class="n">aug_pipeline</span></div>
+
+
+<div class="viewcode-block" id="NlpaugEnMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># no augmentation methods are opened</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">samples</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">}</span>
+
+        <span class="n">texts_to_aug</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>  <span class="c1"># batch_size = 1</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="n">deepcopy</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
+
+        <span class="c1"># get augmented texts</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span><span class="p">:</span>
+            <span class="n">aug_texts</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">aug</span><span class="o">.</span><span class="n">augment</span><span class="p">(</span><span class="n">texts_to_aug</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># apply each aug method to generate several augmented texts</span>
+            <span class="n">aug_texts</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">aug_method</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">aug</span><span class="p">:</span>
+                <span class="n">aug_texts</span> <span class="o">+=</span> <span class="n">aug_method</span><span class="o">.</span><span class="n">augment</span><span class="p">(</span><span class="n">texts_to_aug</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span><span class="p">)</span>
+
+        <span class="c1"># add augmented samples to the batch with other replicate fields</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="n">aug_texts</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">aug_texts</span>
+        <span class="c1"># add other replicate fields</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">res_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">*</span> \
+                                   <span class="nb">len</span><span class="p">(</span><span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
new file mode 100644
index 000000000..876757be4
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
@@ -0,0 +1,289 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.nlpcda_zh_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.nlpcda_zh_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">copy</span><span class="w"> </span><span class="kn">import</span> <span class="n">deepcopy</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">nlpcda</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nlpcda&#39;</span><span class="p">,</span> <span class="s1">&#39;nlpcda&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;nlpcda_zh_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="NlpcdaZhMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">NlpcdaZhMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in Chinese based on nlpcda library.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="NlpcdaZhMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">aug_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">replace_similar_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">replace_homophone_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">delete_random_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">swap_random_char</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">replace_equivalent_num</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method. All augmentation methods use default parameters</span>
+<span class="sd">        in default. We recommend you to only use 1-3 augmentation methods at a</span>
+<span class="sd">        time. Otherwise, the semantics of samples might be changed</span>
+<span class="sd">        significantly. **Notice**: some augmentation method might not work for</span>
+<span class="sd">        some special texts, so there might be no augmented texts generated.</span>
+
+<span class="sd">        :param sequential: whether combine all augmentation methods to a</span>
+<span class="sd">            sequence. If it&#39;s True, a sample will be augmented by all opened</span>
+<span class="sd">            augmentation methods sequentially. If it&#39;s False, each opened</span>
+<span class="sd">            augmentation method would generate its augmented samples</span>
+<span class="sd">            independently.</span>
+<span class="sd">        :param aug_num: number of augmented samples to be generated. If</span>
+<span class="sd">            `sequential` is True, there will be total aug_num augmented samples</span>
+<span class="sd">            generated. If it&#39;s False, there will be (aug_num *</span>
+<span class="sd">            #opened_aug_method) augmented samples generated.</span>
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated texts in the final</span>
+<span class="sd">            datasets and the original texts will be removed. It&#39;s True in</span>
+<span class="sd">            default.</span>
+<span class="sd">        :param replace_similar_word: whether to open the augmentation method of</span>
+<span class="sd">            replacing random words with their similar words in the original</span>
+<span class="sd">            texts. e.g. &quot;这里一共有5种不同的数据增强方法&quot; --&gt; &quot;这边一共有5种不同的数据增强方法&quot;</span>
+<span class="sd">        :param replace_homophone_char: whether to open the augmentation method</span>
+<span class="sd">            of replacing random characters with their homophones in the</span>
+<span class="sd">            original texts. e.g. &quot;这里一共有5种不同的数据增强方法&quot; --&gt; &quot;这里一共有5种不同的濖据增强方法&quot;</span>
+<span class="sd">        :param delete_random_char: whether to open the augmentation method of</span>
+<span class="sd">            deleting random characters from the original texts. e.g.</span>
+<span class="sd">            &quot;这里一共有5种不同的数据增强方法&quot; --&gt; &quot;这里一共有5种不同的数据增强&quot;</span>
+<span class="sd">        :param swap_random_char: whether to open the augmentation method of</span>
+<span class="sd">            swapping random contiguous characters in the original texts. e.g.</span>
+<span class="sd">            &quot;这里一共有5种不同的数据增强方法&quot; --&gt; &quot;这里一共有5种不同的数据强增方法&quot;</span>
+<span class="sd">        :param replace_equivalent_num: whether to open the augmentation method</span>
+<span class="sd">            of replacing random numbers with their equivalent representations</span>
+<span class="sd">            in the original texts. **Notice**: Only for numbers for now. e.g.</span>
+<span class="sd">            &quot;这里一共有5种不同的数据增强方法&quot; --&gt; &quot;这里一共有伍种不同的数据增强方法&quot;</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">=</span> <span class="n">aug_num</span>
+        <span class="k">if</span> <span class="n">aug_num</span> <span class="o">&gt;=</span> <span class="mi">10</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Relatively large augmentation number [</span><span class="si">{</span><span class="n">aug_num</span><span class="si">}</span><span class="s1">]&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39; might generate large number of new samples and &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;requires more memory and disk space.&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="o">=</span> <span class="n">sequential</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+
+        <span class="c1"># hide the redundant outputs from nlpcda library</span>
+        <span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+            <span class="kn">import</span><span class="w"> </span><span class="nn">warnings</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">filterwarnings</span><span class="p">(</span><span class="s1">&#39;ignore&#39;</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="c1"># sample level</span>
+
+            <span class="c1"># word level</span>
+            <span class="k">if</span> <span class="n">replace_similar_word</span><span class="p">:</span>
+                <span class="c1"># the first sample of augmented sample list is the same as the</span>
+                <span class="c1"># original sample, so we need generate one more augmented</span>
+                <span class="c1"># sample to get the expected number of augmented samples. Same</span>
+                <span class="c1"># below</span>
+                <span class="n">create_num</span> <span class="o">=</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> \
+                    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
+                    <span class="k">else</span> <span class="mi">2</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">Similarword</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span>
+
+            <span class="c1"># char level</span>
+            <span class="k">if</span> <span class="n">replace_homophone_char</span><span class="p">:</span>
+                <span class="n">create_num</span> <span class="o">=</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> \
+                    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
+                    <span class="k">else</span> <span class="mi">2</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">Homophone</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span>
+            <span class="k">if</span> <span class="n">delete_random_char</span><span class="p">:</span>
+                <span class="n">create_num</span> <span class="o">=</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> \
+                    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
+                    <span class="k">else</span> <span class="mi">2</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">RandomDeleteChar</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span>
+            <span class="k">if</span> <span class="n">swap_random_char</span><span class="p">:</span>
+                <span class="n">create_num</span> <span class="o">=</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> \
+                    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
+                    <span class="k">else</span> <span class="mi">2</span>
+                <span class="c1"># only use char_gram=1 for relatively minor changes</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">CharPositionExchange</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">,</span>
+                                                <span class="n">char_gram</span><span class="o">=</span><span class="mi">1</span><span class="p">))</span>
+
+            <span class="c1"># only for numbers now</span>
+            <span class="k">if</span> <span class="n">replace_equivalent_num</span><span class="p">:</span>
+                <span class="n">create_num</span> <span class="o">=</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_num</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> \
+                    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
+                    <span class="k">else</span> <span class="mi">2</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">EquivalentChar</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span></div>
+
+
+<div class="viewcode-block" id="NlpcdaZhMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># no augmentation methods are opened</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">samples</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">}</span>
+
+        <span class="n">texts_to_aug</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="n">deepcopy</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
+
+        <span class="c1"># get augmented texts</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span><span class="p">:</span>
+            <span class="n">aug_texts</span> <span class="o">=</span> <span class="n">texts_to_aug</span>
+            <span class="k">for</span> <span class="n">aug_method</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">:</span>
+                <span class="n">results</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">aug_texts</span><span class="p">:</span>
+                    <span class="c1"># aug and skip the original text</span>
+                    <span class="n">result</span> <span class="o">=</span> <span class="n">aug_method</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+                    <span class="n">results</span> <span class="o">+=</span> <span class="n">result</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">result</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span> <span class="k">else</span> <span class="n">result</span>
+                <span class="n">aug_texts</span> <span class="o">=</span> <span class="n">results</span><span class="p">[:]</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">aug_texts</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">aug_texts</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="n">texts_to_aug</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+                <span class="n">aug_texts</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># apply each aug method to generate several augmented texts</span>
+            <span class="n">aug_texts</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">aug_method</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">:</span>
+                <span class="n">aug_texts</span> <span class="o">+=</span> <span class="n">aug_method</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">texts_to_aug</span><span class="p">[</span><span class="mi">0</span><span class="p">])[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="c1"># add augmented samples to the batch with other replicate fields</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="n">aug_texts</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">aug_texts</span>
+        <span class="c1"># add other replicate fields</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">res_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">*</span> \
+                                   <span class="nb">len</span><span class="p">(</span><span class="n">res_samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html b/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html
new file mode 100644
index 000000000..ba496258b
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html
@@ -0,0 +1,267 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.optimize_qa_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.optimize_qa_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">vllm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span> <span class="s1">&#39;vllm&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;optimize_qa_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="OptimizeQAMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">OptimizeQAMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to optimize question-answer pairs.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># avoid leading whitespace</span>
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;请优化输入的问答对，使【问题】和【回答】都更加详细、准确。&#39;</span>
+                             <span class="s1">&#39;必须按照以下标记格式，直接输出优化后的问答对：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;优化后的问题</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;【回答】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                             <span class="s1">&#39;优化后的回答&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;以下是原始问答对：</span><span class="se">\n</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_QA_PAIR_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="si">{}</span><span class="se">\n</span><span class="s1">【回答】</span><span class="se">\n</span><span class="si">{}</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;.*?【问题】\s*(.*?)\s*【回答】\s*(.*)&#39;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="OptimizeQAMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Qwen/Qwen2.5-7B-Instruct&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">qa_pair_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">enable_vllm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugging Face model ID.</span>
+<span class="sd">        :param system_prompt: System prompt for guiding the optimization task.</span>
+<span class="sd">        :param input_template: Template for building the input for the model.</span>
+<span class="sd">            Please make sure the template contains one placeholder &#39;{}&#39;, which</span>
+<span class="sd">            corresponds to the question and answer pair generated by</span>
+<span class="sd">            param `qa_pair_template`.</span>
+<span class="sd">        :param qa_pair_template: Template for formatting the question and</span>
+<span class="sd">            answer pair. Please make sure the template contains two</span>
+<span class="sd">            &#39;{}&#39; to format question and answer.</span>
+<span class="sd">        :param output_pattern: Regular expression pattern to extract question</span>
+<span class="sd">            and answer from model response.</span>
+<span class="sd">        :param enable_vllm: Whether to use VLLM for inference acceleration.</span>
+<span class="sd">        :param model_params: Parameters for initializing the model.</span>
+<span class="sd">        :param sampling_params: Sampling parameters for text generation (e.g.,</span>
+<span class="sd">            {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}).</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span> <span class="o">=</span> <span class="n">qa_pair_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_QA_PAIR_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span> <span class="o">=</span> <span class="n">enable_vllm</span>
+        <span class="n">model_params</span> <span class="o">=</span> <span class="n">model_params</span> <span class="ow">or</span> <span class="p">{}</span>
+        <span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span> <span class="ow">or</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">enable_vllm</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span> <span class="o">&gt;=</span> <span class="mi">1</span><span class="p">,</span> <span class="s1">&#39;must be executed in CUDA&#39;</span>
+            <span class="c1"># cannot initialize vllm replicas on different GPUs</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="mi">1</span>
+            <span class="k">if</span> <span class="n">model_params</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">tensor_parallel_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Set tensor_parallel_size to </span><span class="se">\</span>
+<span class="s1">                    </span><span class="si">{</span><span class="n">tensor_parallel_size</span><span class="si">}</span><span class="s1"> for vllm.&#39;</span><span class="p">)</span>
+                <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;tensor_parallel_size&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor_parallel_size</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">vllm</span><span class="o">.</span><span class="n">SamplingParams</span><span class="p">(</span><span class="o">**</span><span class="n">sampling_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span></div>
+
+
+<div class="viewcode-block" id="OptimizeQAMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">qa_pair</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
+                                               <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">])</span>
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">qa_pair</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">input_prompt</span></div>
+
+
+<div class="viewcode-block" id="OptimizeQAMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="OptimizeQAMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">enable_vllm</span><span class="p">:</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">chat</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">text</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># model is pipe</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span>
+                             <span class="n">return_full_text</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                             <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;generated_text&#39;</span><span class="p">]</span>
+
+        <span class="n">parsed_q</span><span class="p">,</span> <span class="n">parsed_a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">parsed_q</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_q</span>
+        <span class="k">if</span> <span class="n">parsed_a</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_a</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/optimize_query_mapper.html b/_modules/data_juicer/ops/mapper/optimize_query_mapper.html
new file mode 100644
index 000000000..02ee6eb27
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/optimize_query_mapper.html
@@ -0,0 +1,134 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.optimize_query_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.optimize_query_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.optimize_query_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.mapper.optimize_qa_mapper</span><span class="w"> </span><span class="kn">import</span> <span class="n">OptimizeQAMapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;optimize_query_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="OptimizeQueryMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">OptimizeQueryMapper</span><span class="p">(</span><span class="n">OptimizeQAMapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to optimize query in question-answer pairs.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;优化问答对中的【问题】，将其更加详细具体，但仍可以由原答案回答。只输出优化后的【问题】，不要输出多余内容。&#39;</span>  <span class="c1"># noqa: E501</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="OptimizeQueryMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="kc">None</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/optimize_response_mapper.html b/_modules/data_juicer/ops/mapper/optimize_response_mapper.html
new file mode 100644
index 000000000..283fb36cb
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/optimize_response_mapper.html
@@ -0,0 +1,134 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.optimize_response_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.optimize_response_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.optimize_response_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.mapper.optimize_qa_mapper</span><span class="w"> </span><span class="kn">import</span> <span class="n">OptimizeQAMapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;optimize_response_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="OptimizeResponseMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">OptimizeResponseMapper</span><span class="p">(</span><span class="n">OptimizeQAMapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to optimize response in question-answer pairs.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="s1">&#39;请优化问答对中的回答，将其更加详细具体，但仍可以回答原问题。只输出优化后的回答，不要输出多余内容。&#39;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="OptimizeResponseMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/pair_preference_mapper.html b/_modules/data_juicer/ops/mapper/pair_preference_mapper.html
new file mode 100644
index 000000000..0905fed2a
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/pair_preference_mapper.html
@@ -0,0 +1,255 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.pair_preference_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.pair_preference_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;pair_preference_mapper&#39;</span>
+
+
+<span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
+<div class="viewcode-block" id="PairPreferenceMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PairPreferenceMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to construct paired preference samples.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># avoid leading whitespace</span>
+    <span class="n">DEFAULT_SYSTEM_PROMPT</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;你的任务是根据参考信息修改问答对中的回答，在语言风格、事实性、人物身份、立场等任一方面与原回答相反。&#39;</span>
+        <span class="s1">&#39;必须按照以下标记格式输出，不要输出其他多余内容。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;【回答】</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;生成的新回答</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;【原因】</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;生成该回答的原因&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="p">(</span><span class="s1">&#39;【参考信息】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;</span><span class="si">{reference}</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;以下是原始问答对：</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;【问题】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;</span><span class="si">{query}</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;【回答】</span><span class="se">\n</span><span class="s1">&#39;</span>
+                              <span class="s1">&#39;</span><span class="si">{response}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;.*?【回答】\s*(.*?)\s*【原因】\s*(.*)&#39;</span>
+
+<div class="viewcode-block" id="PairPreferenceMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">rejected_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;rejected_response&#39;</span><span class="p">,</span>
+                 <span class="n">reason_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;reason&#39;</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt: System prompt for guiding the generation task.</span>
+<span class="sd">        :param input_template: Template for building the model input. It must</span>
+<span class="sd">            contain placeholders &#39;{query}&#39; and &#39;{reponse}&#39;, and can optionally</span>
+<span class="sd">            include &#39;{reference}&#39;.</span>
+<span class="sd">        :param output_pattern: Regular expression for parsing model output.</span>
+<span class="sd">        :param rejected_key: The field name in the sample to store the</span>
+<span class="sd">            generated rejected response. Defaults to &#39;rejected_response&#39;.</span>
+<span class="sd">        :param reason_key: The field name in the sample to store the reason for</span>
+<span class="sd">            generating the response. Defaults to &#39;reason&#39;.</span>
+<span class="sd">        :param try_num: The number of retries for the API call in case of</span>
+<span class="sd">            response parsing failure. Defaults to 3.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rejected_key</span> <span class="o">=</span> <span class="n">rejected_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reason_key</span> <span class="o">=</span> <span class="n">reason_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span></div>
+
+
+<div class="viewcode-block" id="PairPreferenceMapper.build_input">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;query&#39;</span><span class="p">:</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
+            <span class="s1">&#39;response&#39;</span><span class="p">:</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">],</span>
+            <span class="s1">&#39;reference&#39;</span><span class="p">:</span> <span class="n">sample</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+        <span class="p">}</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format_map</span><span class="p">(</span><span class="n">mapping</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="PairPreferenceMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="PairPreferenceMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_input</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="p">}]</span>
+
+        <span class="n">parsed_rejected</span><span class="p">,</span> <span class="n">parsed_reason</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">parsed_rejected</span><span class="p">,</span> <span class="n">parsed_reason</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">parsed_rejected</span> <span class="ow">and</span> <span class="n">parsed_reason</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">rejected_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_rejected</span>
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">reason_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">parsed_reason</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
new file mode 100644
index 000000000..cf88bb286
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
@@ -0,0 +1,183 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.punctuation_normalization_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.punctuation_normalization_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="PunctuationNormalizationMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;punctuation_normalization_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PunctuationNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to normalize unicode punctuations to English punctuations in text</span>
+<span class="sd">    samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="PunctuationNormalizationMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_unicode</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;，&#39;</span><span class="p">:</span> <span class="s1">&#39;,&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;。&#39;</span><span class="p">:</span> <span class="s1">&#39;.&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;、&#39;</span><span class="p">:</span> <span class="s1">&#39;,&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;„&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;”&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;“&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;«&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;»&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;１&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;」&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;「&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;《&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;》&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;´&#39;</span><span class="p">:</span> <span class="s2">&quot;&#39;&quot;</span><span class="p">,</span>
+            <span class="s1">&#39;∶&#39;</span><span class="p">:</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;：&#39;</span><span class="p">:</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;？&#39;</span><span class="p">:</span> <span class="s1">&#39;?&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;！&#39;</span><span class="p">:</span> <span class="s1">&#39;!&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;（&#39;</span><span class="p">:</span> <span class="s1">&#39;(&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;）&#39;</span><span class="p">:</span> <span class="s1">&#39;)&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;；&#39;</span><span class="p">:</span> <span class="s1">&#39;;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;–&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;—&#39;</span><span class="p">:</span> <span class="s1">&#39; - &#39;</span><span class="p">,</span>
+            <span class="s1">&#39;．&#39;</span><span class="p">:</span> <span class="s1">&#39;. &#39;</span><span class="p">,</span>
+            <span class="s1">&#39;～&#39;</span><span class="p">:</span> <span class="s1">&#39;~&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;’&#39;</span><span class="p">:</span> <span class="s2">&quot;&#39;&quot;</span><span class="p">,</span>
+            <span class="s1">&#39;…&#39;</span><span class="p">:</span> <span class="s1">&#39;...&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;━&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;〈&#39;</span><span class="p">:</span> <span class="s1">&#39;&lt;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;〉&#39;</span><span class="p">:</span> <span class="s1">&#39;&gt;&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;【&#39;</span><span class="p">:</span> <span class="s1">&#39;[&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;】&#39;</span><span class="p">:</span> <span class="s1">&#39;]&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;％&#39;</span><span class="p">:</span> <span class="s1">&#39;%&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;►&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
+        <span class="p">}</span></div>
+
+
+<div class="viewcode-block" id="PunctuationNormalizationMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">punctuation_unicode</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">c</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">text</span><span class="p">])</span>
+            <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/python_file_mapper.html b/_modules/data_juicer/ops/mapper/python_file_mapper.html
new file mode 100644
index 000000000..dafabe718
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/python_file_mapper.html
@@ -0,0 +1,218 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.python_file_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.python_file_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.python_file_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">importlib.util</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">inspect</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;python_file_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="PythonFileMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PythonFileMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper for executing Python function defined in a file.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="PythonFileMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">file_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">function_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;process_single&#39;</span><span class="p">,</span>
+                 <span class="n">batched</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param file_path: The path to the Python file containing the function</span>
+<span class="sd">            to be executed.</span>
+<span class="sd">        :param function_name: The name of the function defined in the file</span>
+<span class="sd">            to be executed.</span>
+<span class="sd">        :param batched: A boolean indicating whether to process input data in</span>
+<span class="sd">            batches.</span>
+<span class="sd">        :param kwargs: Additional keyword arguments passed to the parent class.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span> <span class="o">=</span> <span class="nb">bool</span><span class="p">(</span><span class="n">batched</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">file_path</span> <span class="o">=</span> <span class="n">file_path</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">function_name</span> <span class="o">=</span> <span class="n">function_name</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">file_path</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">func</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">sample</span><span class="p">:</span> <span class="n">sample</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">func</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load_function</span><span class="p">()</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_load_function</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The file &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="si">}</span><span class="s2">&#39; does not exist.&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.py&#39;</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The file &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="si">}</span><span class="s2">&#39; is not a Python file.&quot;</span><span class="p">)</span>
+
+        <span class="c1"># Load the module from the file</span>
+        <span class="n">module_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">spec</span> <span class="o">=</span> <span class="n">importlib</span><span class="o">.</span><span class="n">util</span><span class="o">.</span><span class="n">spec_from_file_location</span><span class="p">(</span><span class="n">module_name</span><span class="p">,</span>
+                                                      <span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="p">)</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="n">importlib</span><span class="o">.</span><span class="n">util</span><span class="o">.</span><span class="n">module_from_spec</span><span class="p">(</span><span class="n">spec</span><span class="p">)</span>
+        <span class="n">spec</span><span class="o">.</span><span class="n">loader</span><span class="o">.</span><span class="n">exec_module</span><span class="p">(</span><span class="n">module</span><span class="p">)</span>
+
+        <span class="c1"># Fetch the specified function from the module</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">module</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">function_name</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Function &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">function_name</span><span class="si">}</span><span class="s2">&#39; not found in &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">file_path</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span>
+
+        <span class="n">func</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">module</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">function_name</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">callable</span><span class="p">(</span><span class="n">func</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The attribute &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">function_name</span><span class="si">}</span><span class="s2">&#39; is not callable.&quot;</span><span class="p">)</span>
+
+        <span class="c1"># Check that the function has exactly one argument</span>
+        <span class="n">argspec</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">getfullargspec</span><span class="p">(</span><span class="n">func</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">argspec</span><span class="o">.</span><span class="n">args</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The function &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">function_name</span><span class="si">}</span><span class="s2">&#39; must take exactly one argument&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">func</span>
+
+<div class="viewcode-block" id="PythonFileMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Invoke the loaded function with the provided sample.&quot;&quot;&quot;</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">func</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Function must return a dictionary, got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">result</span><span class="p">)</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1"> instead.&#39;</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">result</span></div>
+
+
+<div class="viewcode-block" id="PythonFileMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Invoke the loaded function with the provided samples.&quot;&quot;&quot;</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">func</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Function must return a dictionary, got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">result</span><span class="p">)</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1"> instead.&#39;</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">result</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/python_lambda_mapper.html b/_modules/data_juicer/ops/mapper/python_lambda_mapper.html
new file mode 100644
index 000000000..c27943a1b
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/python_lambda_mapper.html
@@ -0,0 +1,195 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.python_lambda_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.python_lambda_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.python_lambda_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">ast</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;python_lambda_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="PythonLambdaMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">PythonLambdaMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper for executing Python lambda function on data samples.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="PythonLambdaMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lambda_str</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">batched</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lambda_str: A string representation of the lambda function to be</span>
+<span class="sd">            executed on data samples. If empty, the identity function is used.</span>
+<span class="sd">        :param batched: A boolean indicating whether to process input data in</span>
+<span class="sd">            batches.</span>
+<span class="sd">        :param kwargs: Additional keyword arguments passed to the parent class.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span> <span class="o">=</span> <span class="nb">bool</span><span class="p">(</span><span class="n">batched</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="c1"># Parse and validate the lambda function</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">lambda_str</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">sample</span><span class="p">:</span> <span class="n">sample</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_create_lambda</span><span class="p">(</span><span class="n">lambda_str</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_create_lambda</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lambda_str</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="c1"># Parse input string into an AST and check for a valid lambda function</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">node</span> <span class="o">=</span> <span class="n">ast</span><span class="o">.</span><span class="n">parse</span><span class="p">(</span><span class="n">lambda_str</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;eval&#39;</span><span class="p">)</span>
+
+            <span class="c1"># Check if the body of the expression is a lambda</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">node</span><span class="o">.</span><span class="n">body</span><span class="p">,</span> <span class="n">ast</span><span class="o">.</span><span class="n">Lambda</span><span class="p">):</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s1">&#39;Input string must be a valid lambda function.&#39;</span><span class="p">)</span>
+
+            <span class="c1"># Check that the lambda has exactly one argument</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">node</span><span class="o">.</span><span class="n">body</span><span class="o">.</span><span class="n">args</span><span class="o">.</span><span class="n">args</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s1">&#39;Lambda function must have exactly one argument.&#39;</span><span class="p">)</span>
+
+            <span class="c1"># Compile the AST to code</span>
+            <span class="n">compiled_code</span> <span class="o">=</span> <span class="nb">compile</span><span class="p">(</span><span class="n">node</span><span class="p">,</span> <span class="s1">&#39;&lt;string&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;eval&#39;</span><span class="p">)</span>
+            <span class="c1"># Safely evaluate the compiled code allowing built-in functions</span>
+            <span class="n">func</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">compiled_code</span><span class="p">,</span> <span class="p">{</span><span class="s1">&#39;__builtins__&#39;</span><span class="p">:</span> <span class="n">__builtins__</span><span class="p">})</span>
+            <span class="k">return</span> <span class="n">func</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Invalid lambda function: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+<div class="viewcode-block" id="PythonLambdaMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># Process the input through the lambda function and return the result</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+
+        <span class="c1"># Check if the result is a valid</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Lambda function must return a dictionary, &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">result</span><span class="p">)</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1"> instead.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">result</span></div>
+
+
+<div class="viewcode-block" id="PythonLambdaMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># Process the input through the lambda function and return the result</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
+
+        <span class="c1"># Check if the result is a valid</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Lambda function must return a dictionary, &#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39;got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">result</span><span class="p">)</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s1"> instead.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">result</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html b/_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html
new file mode 100644
index 000000000..9e74861ba
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html
@@ -0,0 +1,210 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.query_intent_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.query_intent_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.query_intent_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;query_intent_detection_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="QueryIntentDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">QueryIntentDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to predict user&#39;s Intent label in query. Input from query_key.</span>
+<span class="sd">    Output intent label and corresponding score for the query.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="QueryIntentDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hf_model</span><span class="p">:</span>
+        <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;bespin-global/klue-roberta-small-3i4k-intent-classification&#39;</span><span class="p">,</span>  <span class="c1"># noqa: E501 E131</span>
+            <span class="n">zh_to_en_hf_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;Helsinki-NLP/opus-mt-zh-en&#39;</span><span class="p">,</span>
+            <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="n">zh_to_en_model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">label_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_intent_label</span><span class="p">,</span>
+            <span class="n">score_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_intent_score</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugginface model ID to predict intent label.</span>
+<span class="sd">        :param zh_to_en_hf_model: Translation model from Chinese to English.</span>
+<span class="sd">            If not None, translate the query from Chinese to English.</span>
+<span class="sd">        :param model_params: model param for hf_model.</span>
+<span class="sd">        :param zh_to_en_model_params: model param for zh_to_hf_model.</span>
+<span class="sd">        :param label_key: The key name in the meta field to store the</span>
+<span class="sd">            output label. It is &#39;query_intent_label&#39; in default.</span>
+<span class="sd">        :param score_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding label score. It is &#39;query_intent_label_score&#39;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="o">=</span> <span class="n">label_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="o">=</span> <span class="n">score_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                                       <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                       <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;text-classification&#39;</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">zh_to_en_hf_model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">zh_to_en_hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;translation&#39;</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">zh_to_en_model_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="QueryIntentDetectionMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">metas</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">queries</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">translater</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span>
+                                      <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+            <span class="n">results</span> <span class="o">=</span> <span class="n">translater</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+            <span class="n">queries</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;translation_text&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="n">classifier</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">results</span> <span class="o">=</span> <span class="n">classifier</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;label&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+        <span class="n">scores</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;score&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">metas</span><span class="p">)):</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">label_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">score_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html b/_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html
new file mode 100644
index 000000000..920c58473
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html
@@ -0,0 +1,213 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.query_sentiment_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.query_sentiment_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.query_sentiment_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;query_sentiment_detection_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="QuerySentimentDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">QuerySentimentDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to predict user&#39;s sentiment label (&#39;negative&#39;, &#39;neutral&#39; and</span>
+<span class="sd">    &#39;positive&#39;) in query. Input from query_key.</span>
+<span class="sd">    Output label and corresponding score for the query, which is</span>
+<span class="sd">    store in &#39;query_sentiment_label&#39; and</span>
+<span class="sd">    &#39;query_sentiment_label_score&#39; in Data-Juicer meta field.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="QuerySentimentDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hf_model</span><span class="p">:</span>
+        <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis&#39;</span><span class="p">,</span>  <span class="c1"># noqa: E501 E131</span>
+            <span class="n">zh_to_en_hf_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;Helsinki-NLP/opus-mt-zh-en&#39;</span><span class="p">,</span>
+            <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="n">zh_to_en_model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">label_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_sentiment_label</span><span class="p">,</span>
+            <span class="n">score_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_sentiment_score</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugginface model ID to predict sentiment label.</span>
+<span class="sd">        :param zh_to_en_hf_model: Translation model from Chinese to English.</span>
+<span class="sd">            If not None, translate the query from Chinese to English.</span>
+<span class="sd">        :param model_params: model param for hf_model.</span>
+<span class="sd">        :param zh_to_en_model_params: model param for zh_to_hf_model.</span>
+<span class="sd">        :param label_key: The key name in the meta field to store the</span>
+<span class="sd">            output label. It is &#39;query_sentiment_label&#39; in default.</span>
+<span class="sd">        :param score_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding label score. It is &#39;query_sentiment_label_score&#39;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="o">=</span> <span class="n">label_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="o">=</span> <span class="n">score_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                                       <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                       <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;text-classification&#39;</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">zh_to_en_hf_model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">zh_to_en_hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;translation&#39;</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">zh_to_en_model_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="QuerySentimentDetectionMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">metas</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">queries</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">translater</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span>
+                                      <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+            <span class="n">results</span> <span class="o">=</span> <span class="n">translater</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+            <span class="n">queries</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;translation_text&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="n">classifier</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">results</span> <span class="o">=</span> <span class="n">classifier</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;label&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+        <span class="n">scores</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;score&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">metas</span><span class="p">)):</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">label_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">score_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html b/_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html
new file mode 100644
index 000000000..b77362d50
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html
@@ -0,0 +1,212 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.query_topic_detection_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.query_topic_detection_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.query_topic_detection_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;query_topic_detection_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="QueryTopicDetectionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">QueryTopicDetectionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to predict user&#39;s topic label in query. Input from query_key.</span>
+<span class="sd">    Output topic label and corresponding score for the query, which is</span>
+<span class="sd">    store in &#39;query_topic_label&#39; and &#39;query_topic_label_score&#39; in</span>
+<span class="sd">    Data-Juicer meta field.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="QueryTopicDetectionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hf_model</span><span class="p">:</span>
+        <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;dstefa/roberta-base_topic_classification_nyt_news&#39;</span><span class="p">,</span>  <span class="c1"># noqa: E501 E131</span>
+            <span class="n">zh_to_en_hf_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;Helsinki-NLP/opus-mt-zh-en&#39;</span><span class="p">,</span>
+            <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="n">zh_to_en_model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">label_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_topic_label</span><span class="p">,</span>
+            <span class="n">score_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">query_topic_score</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_model: Hugginface model ID to predict topic label.</span>
+<span class="sd">        :param zh_to_en_hf_model: Translation model from Chinese to English.</span>
+<span class="sd">            If not None, translate the query from Chinese to English.</span>
+<span class="sd">        :param model_params: model param for hf_model.</span>
+<span class="sd">        :param zh_to_en_model_params: model param for zh_to_hf_model.</span>
+<span class="sd">        :param label_key: The key name in the meta field to store the</span>
+<span class="sd">            output label. It is &#39;query_topic_label&#39; in default.</span>
+<span class="sd">        :param score_key: The key name in the meta field to store the</span>
+<span class="sd">            corresponding label score. It is &#39;query_topic_label_score&#39;</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="o">=</span> <span class="n">label_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="o">=</span> <span class="n">score_key</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_model</span><span class="p">,</span>
+                                       <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                       <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;text-classification&#39;</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">zh_to_en_hf_model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">zh_to_en_hf_model</span><span class="p">,</span>
+                <span class="n">return_pipe</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;translation&#39;</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">zh_to_en_model_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="o">=</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="QueryTopicDetectionMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">metas</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">score_key</span> <span class="ow">in</span> <span class="n">metas</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">queries</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">translater</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">zh_to_en_model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span>
+                                      <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+            <span class="n">results</span> <span class="o">=</span> <span class="n">translater</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+            <span class="n">queries</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;translation_text&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="n">classifier</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">results</span> <span class="o">=</span> <span class="n">classifier</span><span class="p">(</span><span class="n">queries</span><span class="p">)</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;label&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+        <span class="n">scores</span> <span class="o">=</span> <span class="p">[</span><span class="n">r</span><span class="p">[</span><span class="s1">&#39;score&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="n">results</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">metas</span><span class="p">)):</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">label_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="n">metas</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">score_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/relation_identity_mapper.html b/_modules/data_juicer/ops/mapper/relation_identity_mapper.html
new file mode 100644
index 000000000..63d332589
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/relation_identity_mapper.html
@@ -0,0 +1,277 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.relation_identity_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.relation_identity_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.relation_identity_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.ops.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;relation_identity_mapper&#39;</span>
+
+
+<span class="c1"># TODO: LLM-based inference.</span>
+<div class="viewcode-block" id="RelationIdentityMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RelationIdentityMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    identify relation between two entity in the text.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;给定关于</span><span class="si">{entity1}</span><span class="s1">和</span><span class="si">{entity2}</span><span class="s1">的文本信息。&#39;</span>
+        <span class="s1">&#39;判断</span><span class="si">{entity1}</span><span class="s1">和</span><span class="si">{entity2}</span><span class="s1">之间的关系。</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;要求：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 关系用一个或多个词语表示，必要时可以加一个形容词来描述这段关系</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 输出关系时不要参杂任何标点符号</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 需要你进行合理的推理才能得出结论</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 如果两个人物身份是同一个人，输出关系为：另一个身份</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 输出格式为：</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;分析推理：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;所以</span><span class="si">{entity2}</span><span class="s1">是</span><span class="si">{entity1}</span><span class="s1">的：...</span><span class="se">\n</span><span class="s1">&#39;</span>
+        <span class="s1">&#39;- 注意输出的是</span><span class="si">{entity2}</span><span class="s1">是</span><span class="si">{entity1}</span><span class="s1">的什么关系，而不是</span><span class="si">{entity1}</span><span class="s1">是</span><span class="si">{entity2}</span><span class="s1">的什么关系&#39;</span><span class="p">)</span>
+    <span class="n">DEFAULT_INPUT_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;关于</span><span class="si">{entity1}</span><span class="s1">和</span><span class="si">{entity2}</span><span class="s1">的文本信息：</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">```</span><span class="se">\n</span><span class="s1">&#39;</span>
+    <span class="n">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span> <span class="o">=</span> <span class="sa">r</span><span class="s2">&quot;&quot;&quot;</span>
+<span class="s2">        \s*分析推理：\s*(.*?)\s*</span>
+<span class="s2">        \s*所以</span><span class="si">{entity2}</span><span class="s2">是</span><span class="si">{entity1}</span><span class="s2">的：\s*(.*?)\Z</span>
+<span class="s2">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RelationIdentityMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
+                 <span class="n">source_entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">target_entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="p">,</span>
+                 <span class="n">output_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">role_relation</span><span class="p">,</span>
+                 <span class="n">api_endpoint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">response_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">system_prompt_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">input_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">output_pattern_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">try_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">drop_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">model_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="n">sampling_params</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{},</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param api_model: API model name.</span>
+<span class="sd">        :param source_entity: The source entity of the relation to be</span>
+<span class="sd">            identified.</span>
+<span class="sd">        :param target_entity: The target entity of the relation to be</span>
+<span class="sd">            identified.</span>
+<span class="sd">        :param output_key: The output key in the meta field in the</span>
+<span class="sd">            samples. It is &#39;role_relation&#39; in default.</span>
+<span class="sd">        :param api_endpoint: URL endpoint for the API.</span>
+<span class="sd">        :param response_path: Path to extract content from the API response.</span>
+<span class="sd">            Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">        :param system_prompt_template: System prompt template for the task.</span>
+<span class="sd">        :param input_template: Template for building the model input.</span>
+<span class="sd">        :param output_pattern_template: Regular expression template for</span>
+<span class="sd">            parsing model output.</span>
+<span class="sd">        :param try_num: The number of retry attempts when there is an API</span>
+<span class="sd">            call error or output parsing error.</span>
+<span class="sd">        :param drop_text: If drop the text in the output.</span>
+<span class="sd">        :param model_params: Parameters for initializing the API model.</span>
+<span class="sd">        :param sampling_params: Extra parameters passed to the API call.</span>
+<span class="sd">            e.g {&#39;temperature&#39;: 0.9, &#39;top_p&#39;: 0.95}</span>
+<span class="sd">        :param kwargs: Extra keyword arguments.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">source_entity</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">target_entity</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;source_entity and target_entity cannot be None&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">source_entity</span> <span class="o">=</span> <span class="n">source_entity</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target_entity</span> <span class="o">=</span> <span class="n">target_entity</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_key</span> <span class="o">=</span> <span class="n">output_key</span>
+
+        <span class="n">system_prompt_template</span> <span class="o">=</span> <span class="n">system_prompt_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span> <span class="o">=</span> <span class="n">system_prompt_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">entity1</span><span class="o">=</span><span class="n">source_entity</span><span class="p">,</span> <span class="n">entity2</span><span class="o">=</span><span class="n">target_entity</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span> <span class="o">=</span> <span class="n">input_template</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_INPUT_TEMPLATE</span>
+        <span class="n">output_pattern_template</span> <span class="o">=</span> <span class="n">output_pattern_template</span> <span class="ow">or</span> \
+            <span class="bp">self</span><span class="o">.</span><span class="n">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span> <span class="o">=</span> <span class="n">output_pattern_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">entity1</span><span class="o">=</span><span class="n">source_entity</span><span class="p">,</span> <span class="n">entity2</span><span class="o">=</span><span class="n">target_entity</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span> <span class="o">=</span> <span class="n">sampling_params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                                       <span class="n">model</span><span class="o">=</span><span class="n">api_model</span><span class="p">,</span>
+                                       <span class="n">endpoint</span><span class="o">=</span><span class="n">api_endpoint</span><span class="p">,</span>
+                                       <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                                       <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">try_num</span> <span class="o">=</span> <span class="n">try_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span> <span class="o">=</span> <span class="n">drop_text</span></div>
+
+
+<div class="viewcode-block" id="RelationIdentityMapper.parse_output">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
+
+        <span class="n">relation</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">_</span><span class="p">,</span> <span class="n">relation</span> <span class="o">=</span> <span class="n">match</span>
+            <span class="n">relation</span> <span class="o">=</span> <span class="n">relation</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">relation</span></div>
+
+
+<div class="viewcode-block" id="RelationIdentityMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">meta</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_key</span> <span class="ow">in</span> <span class="n">meta</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">entity1</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">source_entity</span><span class="p">,</span>
+                                                  <span class="n">entity2</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">target_entity</span><span class="p">,</span>
+                                                  <span class="n">text</span><span class="o">=</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">messages</span> <span class="o">=</span> <span class="p">[{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;system&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">system_prompt</span>
+        <span class="p">},</span> <span class="p">{</span>
+            <span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="s1">&#39;user&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">input_prompt</span>
+        <span class="p">}]</span>
+        <span class="n">relation</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">try_num</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">client</span><span class="p">(</span><span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">sampling_params</span><span class="p">)</span>
+                <span class="n">relation</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parse_output</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">relation</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Exception: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">meta</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">output_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">relation</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_text</span><span class="p">:</span>
+            <span class="n">sample</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
new file mode 100644
index 000000000..1ba91a908
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
@@ -0,0 +1,158 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_bibliography_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_bibliography_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/tree/rp_v1/</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveBibliographyMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_bibliography_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveBibliographyMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove bibliography at the end of documents in Latex</span>
+<span class="sd">    samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveBibliographyMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(</span><span class="se">\\</span><span class="s1">appendix|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{references\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{REFERENCES\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{thebibliography\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">bibliography\{.*\}&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;).*$&#39;</span></div>
+
+
+<div class="viewcode-block" id="RemoveBibliographyMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                   <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                   <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                   <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span> <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
new file mode 100644
index 000000000..daefaf480
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
@@ -0,0 +1,179 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_comments_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_comments_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/tree/rp_v1/</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveCommentsMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_comments_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveCommentsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to remove comments in different kinds of documents.</span>
+
+<span class="sd">    Only support &#39;tex&#39; for now.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveCommentsMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">doc_type</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;tex&#39;</span><span class="p">,</span>
+                 <span class="n">inline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">multiline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param doc_type: Type of document to remove comments.</span>
+<span class="sd">        :param inline: Whether to remove inline comments.</span>
+<span class="sd">        :param multiline: Whether to remove multiline comments.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">doc_type</span> <span class="o">=</span> <span class="n">doc_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">inline</span> <span class="o">=</span> <span class="n">inline</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span> <span class="o">=</span> <span class="n">multiline</span></div>
+
+
+<div class="viewcode-block" id="RemoveCommentsMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># TODO: remove different comments by sample type</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">inline</span><span class="p">:</span>
+                <span class="c1"># remove all in comments within a line</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;[^</span><span class="se">\\</span><span class="s1">]%.+$&#39;</span><span class="p">,</span>
+                              <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                              <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                              <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span><span class="p">:</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;(?m)^%.*\n?&#39;</span><span class="p">,</span>
+                              <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                              <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                              <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_header_mapper.html b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
new file mode 100644
index 000000000..6d00b5f58
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
@@ -0,0 +1,170 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_header_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_header_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/tree/rp_v1/</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveHeaderMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_header_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveHeaderMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove headers at the beginning of documents in Latex</span>
+<span class="sd">    samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveHeaderMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">drop_no_head</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param drop_no_head: whether to drop sample texts without</span>
+<span class="sd">            headers.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;^(.*?)(&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span> <span class="o">=</span> <span class="n">drop_no_head</span></div>
+
+
+<div class="viewcode-block" id="RemoveHeaderMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span><span class="p">:</span>
+                    <span class="n">text</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+                <span class="k">continue</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                          <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;\2&#39;</span><span class="p">,</span>
+                          <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                          <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
new file mode 100644
index 000000000..ed1c1c717
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
@@ -0,0 +1,176 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_long_words_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_long_words_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some code here has been modified from:</span>
+<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">,</span>
+                      <span class="n">split_on_newline_tab_whitespace</span><span class="p">,</span> <span class="n">strip</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="RemoveLongWordsMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_long_words_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveLongWordsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove long words within a specific range.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveLongWordsMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_len: The min mapper word length in this op, words</span>
+<span class="sd">            will be filtered if their length is below this parameter.</span>
+<span class="sd">        :param max_len: The max mapper word length in this op, words</span>
+<span class="sd">            will be filtered if their length exceeds this parameter.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
+
+
+<div class="viewcode-block" id="RemoveLongWordsMapper.should_keep_long_word">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">should_keep_long_word</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span>
+                                       <span class="n">SPECIAL_CHARACTERS</span><span class="p">))</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+
+
+<div class="viewcode-block" id="RemoveLongWordsMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[[</span>
+                <span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">subsentence</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_long_word</span><span class="p">(</span><span class="n">word</span><span class="p">)</span>
+            <span class="p">]</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span><span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">(</span>
+                <span class="n">sentences</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html b/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html
new file mode 100644
index 000000000..53c2f092e
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html
@@ -0,0 +1,165 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_non_chinese_character_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_non_chinese_character_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_non_chinese_character_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveNonChineseCharacterlMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_non_chinese_character_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveNonChineseCharacterlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove non chinese Character in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveNonChineseCharacterlMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">keep_alphabet</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">keep_number</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">keep_punc</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param keep_alphabet: whether to keep alphabet</span>
+<span class="sd">        :param keep_number: whether to keep number</span>
+<span class="sd">        :param keep_punc: whether to keep punctuation</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">u</span><span class="s1">&#39;[^</span><span class="se">\u4e00</span><span class="s1">-</span><span class="se">\u9fa5</span><span class="s1">&#39;</span>
+        <span class="k">if</span> <span class="n">keep_alphabet</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">u</span><span class="s1">&#39;A-Za-z&#39;</span>
+        <span class="k">if</span> <span class="n">keep_number</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">u</span><span class="s1">&#39;0-9&#39;</span>
+        <span class="k">if</span> <span class="n">keep_punc</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">u</span><span class="s1">&#39;.， ,</span><span class="se">\\</span><span class="s1">-。%《*》/•、&amp;＆(—)（+）：？!！“”·]+&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">u</span><span class="s1">&#39;]&#39;</span></div>
+
+
+<div class="viewcode-block" id="RemoveNonChineseCharacterlMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
+                <span class="k">continue</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                                 <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                                                 <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                                                 <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html b/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html
new file mode 100644
index 000000000..1996e208e
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html
@@ -0,0 +1,194 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_repeat_sentences_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_repeat_sentences_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_repeat_sentences_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="split_sentence">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">split_sentence</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+    <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;([.。！!？\?])([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
+    <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;(\.</span><span class="si">{6}</span><span class="s1">)([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
+    <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;(\…</span><span class="si">{2}</span><span class="s1">)([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
+    <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;([.。!！？\?\.</span><span class="si">{6}</span><span class="s1">\…</span><span class="si">{2}</span><span class="s1">][’”])([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
+    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="RemoveRepeatSentencesMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_repeat_sentences_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveRepeatSentencesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove repeat sentences in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveRepeatSentencesMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">ignore_special_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">min_repeat_sentence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lowercase: Whether to convert sample text to lower case</span>
+<span class="sd">        :param ignore_special_character: Whether to ignore special</span>
+<span class="sd">            characters when judging repeated sentences. Special characters</span>
+<span class="sd">            are all characters except Chinese characters, letters and</span>
+<span class="sd">            numbers.</span>
+<span class="sd">        :param min_repeat_sentence_length: Sentences shorter than this</span>
+<span class="sd">            length will not be deduplicated. If ignore_special_character is</span>
+<span class="sd">            set to True, then special characters are not included in this</span>
+<span class="sd">            length.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_repeat_sentence_length</span> <span class="o">=</span> <span class="n">min_repeat_sentence_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_regex</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;[^a-zA-Z0-9\u4e00-\u9fa5\n\t ]&#39;</span>
+                                       <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_special_character</span> <span class="k">else</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="RemoveRepeatSentencesMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="n">lines</span> <span class="o">=</span> <span class="p">[</span><span class="n">e</span> <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)]</span>
+            <span class="n">new_lines</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">hash_set</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([])</span>
+            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">lines</span><span class="p">:</span>
+                <span class="n">new_sent</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+                <span class="k">if</span> <span class="n">line</span><span class="p">:</span>
+                    <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_sentence</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">:</span>
+                        <span class="n">copy</span> <span class="o">=</span> <span class="n">sentence</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
+                            <span class="n">copy</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_regex</span><span class="p">:</span>
+                            <span class="n">copy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_regex</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">copy</span><span class="p">)</span>
+
+                        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">copy</span><span class="p">)</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_repeat_sentence_length</span><span class="p">:</span>
+                            <span class="n">new_sent</span> <span class="o">+=</span> <span class="n">sentence</span>
+                        <span class="k">elif</span> <span class="n">copy</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">hash_set</span><span class="p">:</span>
+                            <span class="n">new_sent</span> <span class="o">+=</span> <span class="n">sentence</span>
+                            <span class="n">hash_set</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">copy</span><span class="p">)</span>
+                <span class="n">new_lines</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">new_sent</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">new_lines</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
new file mode 100644
index 000000000..6fdbaadad
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
@@ -0,0 +1,161 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_specific_chars_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_specific_chars_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveSpecificCharsMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_specific_chars_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveSpecificCharsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean specific chars in text samples.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveSpecificCharsMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">chars_to_remove</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;◆●■►▼▲▴∆▻▷❖♡□&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param chars_to_remove: a list or a string including all</span>
+<span class="sd">            characters that need to be removed from text.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">chars_to_remove</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="s1">&#39;[&#39;</span> <span class="o">+</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">chars_to_remove</span><span class="p">)</span> <span class="o">+</span> <span class="s1">&#39;]&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="kc">None</span></div>
+
+
+<div class="viewcode-block" id="RemoveSpecificCharsMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                   <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                   <span class="n">string</span><span class="o">=</span><span class="n">text</span><span class="p">,</span>
+                   <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span> <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
new file mode 100644
index 000000000..94c3ef10a
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
@@ -0,0 +1,163 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_table_text_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_table_text_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="RemoveTableTextMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_table_text_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveTableTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to remove table texts from text samples.</span>
+
+<span class="sd">    Regular expression is used to remove tables in the range of column</span>
+<span class="sd">    number of tables.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveTableTextMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_col</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">20</span><span class="p">)]</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="n">max_col</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">20</span><span class="p">)]</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_col: The min number of columns of table to remove.</span>
+<span class="sd">        :param max_col: The max number of columns of table to remove.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">=</span> <span class="n">min_col</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span> <span class="o">=</span> <span class="n">max_col</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?&lt;=\n)((\S+?)([ |\t](\S+?)){</span><span class="si">%d</span><span class="s1">}\n+){2,}&#39;</span></div>
+
+
+<div class="viewcode-block" id="RemoveTableTextMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span><span class="p">):</span>
+                <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">%</span> <span class="n">i</span><span class="p">)</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
new file mode 100644
index 000000000..196ee3f77
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
@@ -0,0 +1,196 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
+                      <span class="n">merge_on_whitespace_tab_newline</span><span class="p">,</span>
+                      <span class="n">split_on_newline_tab_whitespace</span><span class="p">,</span> <span class="n">strip</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;remove_words_with_incorrect_substrings_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RemoveWordsWithIncorrectSubstringsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove words with incorrect substrings.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
+                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">substrings</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: sample in which language</span>
+<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
+<span class="sd">        :param substrings: The incorrect substrings in words.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">substrings</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">substrings</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;http&#39;</span><span class="p">,</span> <span class="s1">&#39;www&#39;</span><span class="p">,</span> <span class="s1">&#39;.com&#39;</span><span class="p">,</span> <span class="s1">&#39;href&#39;</span><span class="p">,</span> <span class="s1">&#39;//&#39;</span><span class="p">]</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span> <span class="o">=</span> <span class="n">substrings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span>
+                                           <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">should_keep_word_with_incorrect_substrings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">substrings</span><span class="p">):</span>
+        <span class="n">word</span> <span class="o">=</span> <span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
+        <span class="n">should_keep</span> <span class="o">=</span> <span class="nb">all</span><span class="p">([(</span><span class="n">i_substr</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">word</span><span class="p">)</span> <span class="k">for</span> <span class="n">i_substr</span> <span class="ow">in</span> <span class="n">substrings</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">should_keep</span></div>
+
+
+<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
+                <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+                <span class="n">sentences</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
+                    <span class="n">text</span><span class="p">,</span>
+                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span>
+                    <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="n">words</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">word</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;▁&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">sentences</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_word_with_incorrect_substrings</span><span class="p">(</span>
+                        <span class="n">word</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;▁&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">sentences</span><span class="p">):</span>
+                    <span class="n">text</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+                <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[[</span>
+                    <span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">subsentence</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_word_with_incorrect_substrings</span><span class="p">(</span>
+                        <span class="n">word</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span><span class="p">)</span>
+                <span class="p">]</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span><span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
+                <span class="n">text</span> <span class="o">=</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/replace_content_mapper.html b/_modules/data_juicer/ops/mapper/replace_content_mapper.html
new file mode 100644
index 000000000..4712b7932
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/replace_content_mapper.html
@@ -0,0 +1,184 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.replace_content_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.replace_content_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.replace_content_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+
+<div class="viewcode-block" id="ReplaceContentMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;replace_content_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">ReplaceContentMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to replace all content in the text that matches</span>
+<span class="sd">    a specific regular expression pattern with a designated</span>
+<span class="sd">    replacement string.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="ReplaceContentMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">pattern</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">repl</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param pattern: regular expression pattern(s) to search for within text</span>
+<span class="sd">        :param repl: replacement string(s), default is empty string</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">repl</span> <span class="o">=</span> <span class="n">repl</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compiled_patterns</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compiled_patterns</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_pattern</span><span class="p">(</span><span class="n">pattern</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">pattern</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">compiled_patterns</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_pattern</span><span class="p">(</span><span class="n">p</span><span class="p">))</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_prepare_pattern</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pattern</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">re</span><span class="o">.</span><span class="n">Pattern</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Prepare the regular expression pattern.&quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="p">((</span><span class="n">pattern</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">pattern</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">2</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="p">(</span><span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;r&#39;&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;&#39;&quot;</span><span class="p">)</span>
+                     <span class="ow">or</span> <span class="n">pattern</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;r&quot;&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">pattern</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;&quot;&#39;</span><span class="p">))):</span>
+            <span class="n">pattern</span> <span class="o">=</span> <span class="n">pattern</span><span class="p">[</span><span class="mi">2</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
+
+<div class="viewcode-block" id="ReplaceContentMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">samples</span>
+
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">pattern</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compiled_patterns</span><span class="p">):</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="n">i</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">):</span>
+                    <span class="n">replacement</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+                <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="n">i</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">):</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;pattern length: </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">)</span><span class="si">}</span><span class="s2"> &#39;&quot;</span>
+                                     <span class="sa">f</span><span class="s1">&#39;must be equal to &#39;</span>
+                                     <span class="sa">f</span><span class="s1">&#39;repl length: </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">repl</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">replacement</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">repl</span>
+
+                <span class="n">text</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">replacement</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
new file mode 100644
index 000000000..d6aa55bfd
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
@@ -0,0 +1,155 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.sentence_split_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.sentence_split_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_sentences_from_document</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;sentence_split_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="SentenceSplitMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">SentenceSplitMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split text samples to sentences.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="SentenceSplitMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param lang: split sentence of text in which language.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="SentenceSplitMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+
+        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">get_sentences_from_document</span><span class="p">(</span>
+                <span class="n">text</span><span class="p">,</span> <span class="n">model_func</span><span class="o">=</span><span class="n">nltk_model</span><span class="o">.</span><span class="n">tokenize</span> <span class="k">if</span> <span class="n">nltk_model</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/text_chunk_mapper.html b/_modules/data_juicer/ops/mapper/text_chunk_mapper.html
new file mode 100644
index 000000000..8a19f5dc6
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/text_chunk_mapper.html
@@ -0,0 +1,260 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.text_chunk_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.text_chunk_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">itertools</span><span class="w"> </span><span class="kn">import</span> <span class="n">chain</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;text_chunk_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="TextChunkMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TextChunkMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Split input text to chunks.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="TextChunkMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">max_len</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">split_pattern</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\n\n&#39;</span><span class="p">,</span>
+                 <span class="n">overlap_len</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param max_len: Split text into multi texts with this max len if not</span>
+<span class="sd">            None.</span>
+<span class="sd">        :param split_pattern: Make sure split in this pattern if it is not None</span>
+<span class="sd">            and force cut if the length exceeds max_len.</span>
+<span class="sd">        :param overlap_len: Overlap length of the split texts if not split in</span>
+<span class="sd">            the split pattern.</span>
+<span class="sd">        :param tokenizer: The tokenizer name of Hugging Face tokenizers.</span>
+<span class="sd">            The text length will be calculate as the token num if it is offerd.</span>
+<span class="sd">            Otherwise, the text length equals to string length. Support</span>
+<span class="sd">            tiktoken tokenizer (such as gpt-4o), dashscope tokenizer (such as</span>
+<span class="sd">            qwen2.5-72b-instruct) and huggingface tokenizer.</span>
+<span class="sd">        :trust_remote_code: for loading huggingface model</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">max_len</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">split_pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;max_len and split_pattern cannot be both None&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">max_len</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">overlap_len</span> <span class="o">&gt;=</span> <span class="n">max_len</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;overlap_len must be less than max_len&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">overlap_len</span> <span class="o">=</span> <span class="n">overlap_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span> <span class="o">=</span> <span class="n">split_pattern</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;api&#39;</span><span class="p">,</span>
+                <span class="n">model</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+                <span class="n">return_processor</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">processor_config</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;trust_remote_code&#39;</span><span class="p">:</span> <span class="n">trust_remote_code</span><span class="p">})</span></div>
+
+
+<div class="viewcode-block" id="TextChunkMapper.recursively_chunk">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">recursively_chunk</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">_</span><span class="p">,</span> <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">total_len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>
+            <span class="n">sub_text</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">tokens</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">total_len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="n">sub_text</span> <span class="o">=</span> <span class="n">text</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">total_len</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">[</span><span class="n">text</span><span class="p">]</span>
+
+        <span class="n">matches</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">finditer</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span><span class="p">,</span> <span class="n">sub_text</span><span class="p">))</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">matches</span><span class="p">:</span>
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">sub_text</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">left_text</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">-</span>
+                                                    <span class="bp">self</span><span class="o">.</span><span class="n">overlap_len</span><span class="p">:])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">left_text</span> <span class="o">=</span> <span class="n">text</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">overlap_len</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">last_match</span> <span class="o">=</span> <span class="n">matches</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">cur_text</span> <span class="o">=</span> <span class="n">sub_text</span><span class="p">[:</span><span class="n">last_match</span><span class="o">.</span><span class="n">start</span><span class="p">()]</span>
+            <span class="n">left_text</span> <span class="o">=</span> <span class="n">text</span><span class="p">[</span><span class="n">last_match</span><span class="o">.</span><span class="n">end</span><span class="p">():]</span>
+
+        <span class="k">return</span> <span class="p">[</span><span class="n">cur_text</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">recursively_chunk</span><span class="p">(</span><span class="n">left_text</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TextChunkMapper.get_text_chunks">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_text_chunks</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">chunks</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;(</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span><span class="si">}</span><span class="s1">)&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+            <span class="n">chunks</span> <span class="o">=</span> <span class="p">[</span><span class="n">t</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">chunks</span> <span class="k">if</span> <span class="n">t</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="n">text</span>
+            <span class="n">total_len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">_</span><span class="p">,</span> <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+                <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+                <span class="n">total_len</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">total_len</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
+                <span class="k">return</span> <span class="p">[</span><span class="n">text</span><span class="p">]</span>
+            <span class="n">chunks</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">start</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">total_len</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">overlap_len</span><span class="p">):</span>
+                <span class="n">cur</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="n">start</span><span class="p">:</span><span class="n">start</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">]</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">cur</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">cur</span><span class="p">)</span>
+                <span class="n">chunks</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">chunks</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">recursively_chunk</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">chunks</span></div>
+
+
+<div class="viewcode-block" id="TextChunkMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+        <span class="n">sample_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+
+        <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">get_text_chunks</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">text</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[[</span><span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]]</span> <span class="o">*</span>
+                                <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">i</span><span class="p">])</span>
+                                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">sample_num</span><span class="p">)]</span>
+
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">:</span>
+            <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">chain</span><span class="p">(</span><span class="o">*</span><span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">]))</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html
new file mode 100644
index 000000000..b8ef63df6
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html
@@ -0,0 +1,260 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_captioning_from_audio_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_captioning_from_audio_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_captioning_from_audio_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">regex</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">extract_audio_from_video</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">NAME</span> <span class="o">=</span> <span class="s1">&#39;video_captioning_from_audio_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoCaptioningFromAudioMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoCaptioningFromAudioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to caption a video according to its audio streams based on</span>
+<span class="sd">    Qwen-Audio model.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromAudioMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only captioned sample in the</span>
+<span class="sd">            final datasets and the original sample will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;30GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span>
+            <span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers_stream_generator&#39;</span><span class="p">,</span> <span class="s1">&#39;einops&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;accelerate&#39;</span><span class="p">,</span> <span class="s1">&#39;tiktoken&#39;</span>
+        <span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_hf_qwen_audio</span> <span class="o">=</span> <span class="s1">&#39;Qwen/Qwen-Audio&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_hf_qwen_audio</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">=</span> <span class="s1">&#39;&lt;|startoftranscription|&gt;&lt;|unkown|&gt;&lt;|caption|&gt;&#39;</span> \
+                      <span class="s1">&#39;&lt;|unkown|&gt;&lt;|notimestamps|&gt;&lt;|wo_itn|&gt;&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_remove_pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;&lt;\|.*?\|&gt;&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># get paths of all video(s)</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="c1"># get models</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">captioned_sample</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="c1"># generate for each video chunk by chunk</span>
+        <span class="n">captioned_texts</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">left_video_keys</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+
+            <span class="n">vid_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+
+            <span class="n">captioned_text_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">vid_count</span><span class="p">]:</span>
+                <span class="c1"># only extract audio for index 0 for now</span>
+                <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">valid_indexes</span> <span class="o">=</span> <span class="n">extract_audio_from_video</span><span class="p">(</span>
+                    <span class="n">video</span><span class="p">,</span> <span class="n">video</span> <span class="o">+</span> <span class="s1">&#39;.mp3&#39;</span><span class="p">,</span> <span class="n">stream_indexes</span><span class="o">=</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indexes</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="c1"># there is no valid audio streams. Skip!</span>
+                    <span class="k">continue</span>
+                <span class="n">extracted_audio_path</span> <span class="o">=</span> <span class="n">video</span> <span class="o">+</span> <span class="s1">&#39;_0.mp3&#39;</span>
+                <span class="n">query</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;audio&gt;</span><span class="si">{</span><span class="n">extracted_audio_path</span><span class="si">}</span><span class="s1">&lt;/audio&gt;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="si">}</span><span class="s1">&#39;</span>
+
+                <span class="c1"># start to inference</span>
+                <span class="n">audio_info</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">process_audio</span><span class="p">(</span><span class="n">query</span><span class="p">)</span>
+                <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span><span class="n">query</span><span class="p">,</span>
+                                   <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                                   <span class="n">audio_info</span><span class="o">=</span><span class="n">audio_info</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">,</span> <span class="n">audio_info</span><span class="o">=</span><span class="n">audio_info</span><span class="p">)</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                                            <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                            <span class="n">audio_info</span><span class="o">=</span><span class="n">audio_info</span><span class="p">)</span>
+                <span class="c1"># remove audio path</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">extracted_audio_path</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                    <span class="s1">&#39;&lt;audio&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;/audio&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+                <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_remove_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
+                                                            <span class="n">response</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+                <span class="k">if</span> <span class="n">response</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+                    <span class="c1"># generate failure. Skip!</span>
+                    <span class="k">continue</span>
+                <span class="n">captioned_text_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="si">}</span><span class="s1"> </span><span class="si">{</span><span class="n">response</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">left_video_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                <span class="c1"># remove extracted audio files</span>
+                <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">extracted_audio_path</span><span class="p">)</span>
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">vid_count</span>
+            <span class="n">captioned_text</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">captioned_text_list</span><span class="p">)</span>
+
+            <span class="c1"># add special tokens</span>
+            <span class="n">captioned_texts</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">captioned_text</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="n">captioned_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">captioned_texts</span>
+        <span class="n">captioned_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">left_video_keys</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">captioned_sample</span><span class="p">]</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromAudioMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_split</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do split for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_split</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_split</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html
new file mode 100644
index 000000000..c505b2117
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html
@@ -0,0 +1,481 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_captioning_from_frames_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_captioning_from_frames_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_captioning_from_frames_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># yapf: disable</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">random</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">insert_texts_after_placeholders</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">,</span>
+                                        <span class="n">remove_non_special_tokens</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">simhash</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;simhash&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_captioning_from_frames_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoCaptioningFromFramesMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoCaptioningFromFramesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate samples whose captions are generated based on</span>
+<span class="sd">    an image-to-text model and sampled video frames. Captions from different</span>
+<span class="sd">    frames will be concatenated to a single string.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromFramesMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hf_img2seq</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip2-opt-2.7b&#39;</span><span class="p">,</span>
+        <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">caption_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">keep_candidate_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;random_any&#39;</span><span class="p">,</span>
+        <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">prompt_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+        <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_img2seq: model name on huggingface to generate caption</span>
+<span class="sd">        :param caption_num: how many candidate captions to generate</span>
+<span class="sd">            for each video</span>
+<span class="sd">        :param keep_candidate_mode: retain strategy for the generated</span>
+<span class="sd">            $caption_num$ candidates.</span>
+
+<span class="sd">            &#39;random_any&#39;: Retain the random one from generated captions</span>
+
+<span class="sd">            &#39;similar_one_simhash&#39;: Retain the generated one that is most</span>
+<span class="sd">                similar to the original caption</span>
+
+<span class="sd">            &#39;all&#39;: Retain all generated captions by concatenation</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ list of input samples, whose batch</span>
+<span class="sd">            size is $b$, and denote caption_num as $M$.</span>
+<span class="sd">            The number of total samples after generation is $2Nb$ when</span>
+<span class="sd">            keep_original_sample is True and $Nb$ when keep_original_sample is</span>
+<span class="sd">            False. For &#39;random_any&#39; and &#39;similar_one_simhash&#39; mode,</span>
+<span class="sd">            it&#39;s $(1+M)Nb$ for &#39;all&#39; mode when keep_original_sample is True</span>
+<span class="sd">            and $MNb$ when keep_original_sample is False.</span>
+
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated captions in the</span>
+<span class="sd">            final datasets and the original captions will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param prompt: a string prompt to guide the generation of image-to-text</span>
+<span class="sd">            model for all samples globally. It&#39;s None in default, which means</span>
+<span class="sd">            no prompt provided.</span>
+<span class="sd">        :param prompt_key: the key name of fields in samples to store prompts</span>
+<span class="sd">            for each sample. It&#39;s used for set different prompts for different</span>
+<span class="sd">            samples. If it&#39;s none, use prompt in parameter &quot;prompt&quot;. It&#39;s None</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            videos from the videos. Should be one of</span>
+<span class="sd">            [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number</span>
+<span class="sd">            of which depends on the duration of the video) and the latter</span>
+<span class="sd">            one extract specified number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param horizontal_flip: flip frame video horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: flip frame video vertically (top to bottom).</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;20GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span>
+        <span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">keep_candidate_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[&quot;random_any&quot;, &quot;similar_one_simhash&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">1</span>
+        <span class="k">elif</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="n">caption_num</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># report a warning when both prompt and prompt_key are set</span>
+        <span class="k">if</span> <span class="n">prompt</span> <span class="ow">and</span> <span class="n">prompt_key</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Both the parameter `prompt` and `prompt_key` are &#39;</span>
+                <span class="s1">&#39;set. Data-Juicer will consider `prompt_key` first.&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span> <span class="o">=</span> <span class="n">caption_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">=</span> <span class="n">keep_candidate_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">=</span> <span class="n">prompt</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> <span class="o">=</span> <span class="n">prompt_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_img2seq</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span>
+        <span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ori_sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">ori_sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># the generated results</span>
+        <span class="n">generated_samples</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="k">for</span> <span class="n">generated_sample</span> <span class="ow">in</span> <span class="n">generated_samples</span><span class="p">:</span>
+            <span class="n">generated_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+
+            <span class="n">video_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+
+            <span class="c1"># no video or no text</span>
+            <span class="k">if</span> <span class="n">video_count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">())</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="n">remove_non_special_tokens</span><span class="p">(</span>
+                    <span class="n">chunk</span><span class="p">)</span>
+                <span class="c1"># generate candidate caption(s) in batch manner</span>
+                <span class="n">generated_text_candidates_single_chunk</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="p">[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span>
+                                                   <span class="n">video_count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="n">video_frame_videos_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                    <span class="c1"># extract frame videos</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                            <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+                    <span class="n">frame_videos</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frame_videos</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                            <span class="n">frame</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                            <span class="n">frame</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                        <span class="n">video_frame_videos_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+
+                    <span class="c1"># construct prompts</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span>
+                            <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">],</span> <span class="nb">str</span><span class="p">):</span>
+                        <span class="c1"># check prompt_key is not None, and it&#39;s a str</span>
+                        <span class="c1"># in the sample</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">]</span>
+                                        <span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">video_frame_videos_chunk</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                        <span class="c1"># check prompt is not None, and it&#39;s a str</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span>
+                                        <span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">video_frame_videos_chunk</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="kc">None</span>
+
+                    <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span>
+                        <span class="n">text</span><span class="o">=</span><span class="n">prompt_texts</span><span class="p">,</span>
+                        <span class="n">images</span><span class="o">=</span><span class="n">video_frame_videos_chunk</span><span class="p">,</span>
+                        <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">):</span>
+                        <span class="n">generated_ids</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
+                                                       <span class="n">max_new_tokens</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+                                                       <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="n">generated_text</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span>
+                            <span class="n">generated_ids</span><span class="p">,</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">+=</span> <span class="p">[</span>
+                            <span class="s1">&#39;. &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span><span class="n">txt</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">txt</span> <span class="ow">in</span> <span class="n">generated_text</span><span class="p">])</span>
+                        <span class="p">]</span>
+
+                <span class="c1"># 3. insert a list of generated captions into the positions of</span>
+                <span class="c1"># subsequent placeholders in the original string</span>
+                <span class="n">new_generated_text_all_videos</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="p">[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="c1"># new_generated_text_all_videos is a helper array,</span>
+                <span class="c1"># element [i][j]</span>
+                <span class="c1"># denotes the reduced $i$-th result for the $j$-th video</span>
+
+                <span class="c1"># reduce the captions according to given mode video by video</span>
+                <span class="k">for</span> <span class="n">j</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">video_count</span><span class="p">):</span>
+                    <span class="n">new_generated_text_per_video</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reduce_captions</span><span class="p">(</span>
+                        <span class="n">chunk</span><span class="p">,</span>
+                        <span class="p">[</span>
+                            <span class="n">captions</span><span class="p">[</span><span class="n">j</span><span class="p">]</span> <span class="k">for</span> <span class="n">captions</span> <span class="ow">in</span>
+                            <span class="n">generated_text_candidates_single_chunk</span>
+                        <span class="p">],</span>
+                    <span class="p">)</span>
+                    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span>
+                        <span class="n">new_generated_text_per_video</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">new_generated_text_per_video</span><span class="p">)):</span>
+                        <span class="n">new_generated_text_all_videos</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="n">new_generated_text_per_video</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+
+                <span class="c1"># insert the captions according to given mode</span>
+                <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">]</span> <span class="o">*</span> <span class="n">video_count</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">):</span>
+                    <span class="n">generated_text_per_chunk</span> <span class="o">=</span> <span class="n">insert_texts_after_placeholders</span><span class="p">(</span>
+                        <span class="n">original_string</span><span class="o">=</span><span class="n">text_with_only_special_tokens</span><span class="p">,</span>
+                        <span class="n">placeholders</span><span class="o">=</span><span class="n">place_holders</span><span class="p">,</span>
+                        <span class="n">new_texts</span><span class="o">=</span><span class="n">new_generated_text_all_videos</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
+                    <span class="p">)</span>
+                    <span class="n">generated_samples</span><span class="p">[</span><span class="n">i</span><span class="p">][</span>
+                        <span class="bp">self</span><span class="o">.</span>
+                        <span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">generated_text_per_chunk</span><span class="si">}</span><span class="s1">&#39;</span> \
+                                     <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">video_count</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">generated_samples</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_reduce_captions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">chunk</span><span class="p">,</span> <span class="n">generated_text_candidates_single_chunk</span><span class="p">):</span>
+        <span class="n">generated_text_per_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;random_any&#39;</span><span class="p">:</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">generated_text_candidates_single_chunk</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;all&#39;</span><span class="p">:</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">..deduplicator.document_simhash_deduplicator</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">DocumentSimhashDeduplicator</span>
+
+            <span class="n">ori_normal_text</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+            <span class="c1"># using a simhash OP to calculate their similarity</span>
+            <span class="c1"># NOTE: simhash is just one method to calculate the similarities</span>
+            <span class="c1"># between texts, but not the most accurate one. More methods (e.g.</span>
+            <span class="c1"># embedding-based, ...) will be added.</span>
+            <span class="n">op_simhash</span> <span class="o">=</span> <span class="n">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">window_size</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span><span class="p">)</span>
+            <span class="n">ori_text_hash</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">({</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                                         <span class="n">ori_normal_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+            <span class="n">generated_text_hashes</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                    <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">(</span>
+                        <span class="p">{</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                         <span class="n">candidate_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">candidate_text</span> <span class="ow">in</span> <span class="n">generated_text_candidates_single_chunk</span>
+            <span class="p">]</span>
+            <span class="n">hamming_distances</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">simhash</span><span class="o">.</span><span class="n">num_differing_bits</span><span class="p">(</span><span class="n">ori_text_hash</span><span class="p">,</span> <span class="n">generated_text_hash</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">generated_text_hash</span> <span class="ow">in</span> <span class="n">generated_text_hashes</span>
+            <span class="p">]</span>
+            <span class="n">max_index</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">hamming_distances</span><span class="p">)),</span>
+                            <span class="n">key</span><span class="o">=</span><span class="n">hamming_distances</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span><span class="n">max_index</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">generated_text_per_chunk</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromFramesMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        :param samples:</span>
+<span class="sd">        :return:</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose the input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ input sample list with batch</span>
+<span class="sd">            size as $b$, and denote caption_num as $M$.</span>
+<span class="sd">            the number of total samples after generation is $2Nb$</span>
+<span class="sd">            for &#39;random_any&#39; and &#39;similar_one&#39; mode,</span>
+<span class="sd">            and $(1+M)Nb$ for &#39;all&#39; mode.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_generation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do generation for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                                            <span class="n">context</span><span class="o">=</span><span class="n">context</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_generation</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_generation</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html
new file mode 100644
index 000000000..fc625152c
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html
@@ -0,0 +1,379 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_captioning_from_summarizer_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">remove_special_tokens</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">NAME</span> <span class="o">=</span> <span class="s1">&#39;video_captioning_from_summarizer_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoCaptioningFromSummarizerMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to generate video captions by summarizing several kinds of generated</span>
+<span class="sd">    texts (captions from video/audio/frames, tags from audio/frames, ...)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_summarizer</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">consider_video_caption_from_video</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">consider_video_caption_from_audio</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">consider_video_caption_from_frames</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">consider_video_tags_from_audio</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">consider_video_tags_from_frames</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="n">vid_cap_from_vid_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">vid_cap_from_frm_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">vid_tag_from_aud_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">vid_tag_from_frm_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">keep_tag_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_summarizer: the summarizer model used to summarize texts</span>
+<span class="sd">            generated by other methods.</span>
+<span class="sd">        :param consider_video_caption_from_video: whether to consider the video</span>
+<span class="sd">            caption generated from video directly in the summarization process.</span>
+<span class="sd">            Default: True.</span>
+<span class="sd">        :param consider_video_caption_from_audio: whether to consider the video</span>
+<span class="sd">            caption generated from audio streams in the video in the</span>
+<span class="sd">            summarization process. Default: True.</span>
+<span class="sd">        :param consider_video_caption_from_frames: whether to consider the</span>
+<span class="sd">            video caption generated from sampled frames from the video in the</span>
+<span class="sd">            summarization process. Default: True.</span>
+<span class="sd">        :param consider_video_tags_from_audio: whether to consider the video</span>
+<span class="sd">            tags generated from audio streams in the video in the summarization</span>
+<span class="sd">            process. Default: True.</span>
+<span class="sd">        :param consider_video_tags_from_frames: whether to consider the video</span>
+<span class="sd">            tags generated from sampled frames from the video in the</span>
+<span class="sd">            summarization process. Default: True.</span>
+<span class="sd">        :param vid_cap_from_vid_args: the arg dict for video captioning from</span>
+<span class="sd">            video directly with keys are the arg names and values are the arg</span>
+<span class="sd">            values. Default: None.</span>
+<span class="sd">        :param vid_cap_from_frm_args: the arg dict for video captioning from</span>
+<span class="sd">            sampled frames from the video with keys are the arg names and</span>
+<span class="sd">            values are the arg values. Default: None.</span>
+<span class="sd">        :param vid_tag_from_aud_args: the arg dict for video tagging from audio</span>
+<span class="sd">            streams in the video with keys are the arg names and values are the</span>
+<span class="sd">            arg values. Default: None.</span>
+<span class="sd">        :param vid_tag_from_frm_args: the arg dict for video tagging from</span>
+<span class="sd">            sampled frames from the video with keys are the arg names and</span>
+<span class="sd">            values are the arg values. Default: None.</span>
+<span class="sd">        :param keep_tag_num: max number N of tags from sampled frames to keep.</span>
+<span class="sd">            Too many tags might bring negative influence to summarized text, so</span>
+<span class="sd">            we consider to only keep the N most frequent tags. Default: 5.</span>
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only summarized captions in the</span>
+<span class="sd">            final datasets and the original captions will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;40GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span>
+            <span class="s1">&#39;torch&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;transformers&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;transformers_stream_generator&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;einops&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;accelerate&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;tiktoken&#39;</span><span class="p">,</span>  <span class="c1"># by audio caption</span>
+            <span class="s1">&#39;torchaudio&#39;</span><span class="p">,</span>  <span class="c1"># by audio tag</span>
+        <span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+
+        <span class="c1"># prepare summarizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_hf_summarizer</span> <span class="o">=</span> <span class="n">hf_summarizer</span> <span class="k">if</span> <span class="n">hf_summarizer</span> <span class="k">else</span> <span class="s1">&#39;mrm8488/flan-t5-large-finetuned-openai-summarize_from_feedback&#39;</span>  <span class="c1"># noqa: E501</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_hf_summarizer</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+
+        <span class="c1"># prepare input texts ops</span>
+        <span class="k">if</span> <span class="n">vid_cap_from_vid_args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">vid_cap_from_vid_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">vid_cap_from_frm_args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">vid_cap_from_frm_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">vid_tag_from_aud_args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">vid_tag_from_aud_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">vid_tag_from_frm_args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">vid_tag_from_frm_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">FIXED_ARGS</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;caption_num&#39;</span><span class="p">:</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="s1">&#39;keep_candidate_mode&#39;</span><span class="p">:</span> <span class="s1">&#39;random_any&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;keep_original_sample&#39;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="p">}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tag_op_list</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">consider_video_caption_from_video</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.video_captioning_from_video_mapper</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">VideoCaptioningFromVideoMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">VideoCaptioningFromVideoMapper</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_op_args</span><span class="p">(</span>
+                    <span class="n">VideoCaptioningFromVideoMapper</span><span class="p">,</span> <span class="n">vid_cap_from_vid_args</span><span class="p">)))</span>
+        <span class="k">if</span> <span class="n">consider_video_caption_from_audio</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.video_captioning_from_audio_mapper</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">VideoCaptioningFromAudioMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">VideoCaptioningFromAudioMapper</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_op_args</span><span class="p">(</span>
+                    <span class="n">VideoCaptioningFromAudioMapper</span><span class="p">,</span> <span class="p">{})))</span>
+        <span class="k">if</span> <span class="n">consider_video_caption_from_frames</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.video_captioning_from_frames_mapper</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">VideoCaptioningFromFramesMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">VideoCaptioningFromFramesMapper</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_op_args</span><span class="p">(</span>
+                    <span class="n">VideoCaptioningFromFramesMapper</span><span class="p">,</span> <span class="n">vid_cap_from_frm_args</span><span class="p">)))</span>
+        <span class="k">if</span> <span class="n">consider_video_tags_from_audio</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.video_tagging_from_audio_mapper</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">VideoTaggingFromAudioMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tag_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">VideoTaggingFromAudioMapper</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_op_args</span><span class="p">(</span>
+                    <span class="n">VideoTaggingFromAudioMapper</span><span class="p">,</span> <span class="n">vid_tag_from_aud_args</span><span class="p">)))</span>
+        <span class="k">if</span> <span class="n">consider_video_tags_from_frames</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">.video_tagging_from_frames_mapper</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">VideoTaggingFromFramesMapper</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tag_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">VideoTaggingFromFramesMapper</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_prepare_op_args</span><span class="p">(</span>
+                    <span class="n">VideoTaggingFromFramesMapper</span><span class="p">,</span> <span class="n">vid_tag_from_frm_args</span><span class="p">)))</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_tag_num</span> <span class="o">=</span> <span class="n">keep_tag_num</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_prepare_op_args</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_class</span><span class="p">,</span> <span class="n">args_dict</span><span class="p">):</span>
+        <span class="n">required_args</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">op_class</span><span class="o">.</span><span class="fm">__init__</span><span class="o">.</span><span class="vm">__code__</span><span class="o">.</span><span class="n">co_varnames</span><span class="p">)</span>
+        <span class="n">args_dict</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">FIXED_ARGS</span><span class="p">)</span>
+        <span class="n">temp_args</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">args_dict</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">temp_args</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">required_args</span><span class="p">:</span>
+                <span class="n">args_dict</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+        <span class="n">args_dict</span><span class="p">[</span><span class="s1">&#39;accelerator&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span>
+        <span class="k">return</span> <span class="n">args_dict</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># there is no activated ops</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_op_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># get paths of all video(s)</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="c1"># get models</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="n">captioned_sample</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="c1"># generate for each video chunk by chunk</span>
+        <span class="n">captioned_texts</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+
+            <span class="n">vid_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">vid_count</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="c1"># add special tokens</span>
+                <span class="n">captioned_texts</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">chunk</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># make a temporary sample</span>
+            <span class="n">temp_sample</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span> <span class="n">chunk</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">:</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span> <span class="n">vid_count</span><span class="p">],</span>
+                <span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">:</span> <span class="p">{},</span>
+            <span class="p">}</span>
+
+            <span class="n">captioned_text_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="c1"># tag ops</span>
+            <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_op_list</span><span class="p">:</span>
+                <span class="n">temp_sample</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">temp_sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_audio_tags</span> <span class="ow">in</span> <span class="n">temp_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+                <span class="n">captioned_text_list</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                    <span class="n">temp_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_audio_tags</span><span class="p">])</span>
+            <span class="k">if</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_frame_tags</span> <span class="ow">in</span> <span class="n">temp_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+                <span class="k">for</span> <span class="n">tag_list</span> <span class="ow">in</span> <span class="n">temp_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span>
+                        <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_frame_tags</span><span class="p">]:</span>
+                    <span class="n">captioned_text_list</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">tag_list</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">keep_tag_num</span><span class="p">])</span>
+            <span class="c1"># cap ops</span>
+            <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">cap_op_list</span><span class="p">:</span>
+                <span class="n">captioned_text_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">remove_special_tokens</span><span class="p">(</span>
+                        <span class="n">op</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">temp_sample</span><span class="p">,</span>
+                                                  <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;text&#39;</span><span class="p">]))</span>
+
+            <span class="c1"># summarization</span>
+            <span class="n">all_texts</span> <span class="o">=</span> <span class="s1">&#39;, &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">captioned_text_list</span><span class="p">)</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span><span class="n">all_texts</span><span class="p">,</span> <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">input_ids</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                <span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="o">=</span><span class="mi">128</span><span class="p">)</span>
+            <span class="n">summarized_text</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                                               <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+            <span class="n">offset</span> <span class="o">+=</span> <span class="n">vid_count</span>
+            <span class="n">captioned_text</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">vid_count</span><span class="si">}</span><span class="s1"> &#39;</span> \
+                             <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">summarized_text</span><span class="si">}</span><span class="s1">&#39;</span>
+
+            <span class="c1"># add special tokens</span>
+            <span class="n">captioned_texts</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">captioned_text</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="n">captioned_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">captioned_texts</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">captioned_sample</span><span class="p">]</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_split</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do split for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_split</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_split</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html
new file mode 100644
index 000000000..fc6318f86
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html
@@ -0,0 +1,488 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_captioning_from_video_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_captioning_from_video_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_captioning_from_video_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># yapf: disable</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">random</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageOps</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">HashKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">insert_texts_after_placeholders</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">,</span>
+                                        <span class="n">remove_non_special_tokens</span><span class="p">,</span>
+                                        <span class="n">remove_special_tokens</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">simhash</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;simhash&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_captioning_from_video_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoCaptioningFromVideoMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoCaptioningFromVideoMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate samples whose captions are generated based on</span>
+<span class="sd">    a video-to-text model and sampled video frame.&quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromVideoMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hf_video_blip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;kpyu/video-blip-opt-2.7b-ego4d&#39;</span><span class="p">,</span>
+        <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">caption_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">keep_candidate_mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;random_any&#39;</span><span class="p">,</span>
+        <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">prompt_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+        <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="n">horizontal_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">vertical_flip</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_video_blip: video-blip model name on huggingface</span>
+<span class="sd">            to generate caption</span>
+<span class="sd">        :param caption_num: how many candidate captions to generate</span>
+<span class="sd">            for each video</span>
+<span class="sd">        :param keep_candidate_mode: retain strategy for the generated</span>
+<span class="sd">            $caption_num$ candidates.</span>
+
+<span class="sd">            &#39;random_any&#39;: Retain the random one from generated captions</span>
+
+<span class="sd">            &#39;similar_one_simhash&#39;: Retain the generated one that is most</span>
+<span class="sd">                similar to the original caption</span>
+
+<span class="sd">            &#39;all&#39;: Retain all generated captions by concatenation</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ list of input samples, whose batch</span>
+<span class="sd">            size is $b$, and denote caption_num as $M$.</span>
+<span class="sd">            The number of total samples after generation is $2Nb$ when</span>
+<span class="sd">            keep_original_sample is True and $Nb$ when keep_original_sample is</span>
+<span class="sd">            False. For &#39;random_any&#39; and &#39;similar_one_simhash&#39; mode,</span>
+<span class="sd">            it&#39;s $(1+M)Nb$ for &#39;all&#39; mode when keep_original_sample is True</span>
+<span class="sd">            and $MNb$ when keep_original_sample is False.</span>
+
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only generated captions in the</span>
+<span class="sd">            final datasets and the original captions will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param prompt: a string prompt to guide the generation of video-blip</span>
+<span class="sd">            model for all samples globally. It&#39;s None in default, which means</span>
+<span class="sd">            no prompt provided.</span>
+<span class="sd">        :param prompt_key: the key name of fields in samples to store prompts</span>
+<span class="sd">            for each sample. It&#39;s used for set different prompts for different</span>
+<span class="sd">            samples. If it&#39;s none, use prompt in parameter &quot;prompt&quot;. It&#39;s None</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            videos from the videos. Should be one of</span>
+<span class="sd">            [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number</span>
+<span class="sd">            of which depends on the duration of the video) and the latter</span>
+<span class="sd">            one extract specified number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param horizontal_flip: flip frame video horizontally (left to right).</span>
+<span class="sd">        :param vertical_flip: flip frame video vertically (top to bottom).</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;20GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">,</span> <span class="s1">&#39;all&#39;</span>
+        <span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Keep strategy [</span><span class="si">{</span><span class="n">keep_candidate_mode</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[&quot;random_any&quot;, &quot;similar_one_simhash&quot;, &quot;all&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;random_any&#39;</span><span class="p">,</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">1</span>
+        <span class="k">elif</span> <span class="n">keep_candidate_mode</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="n">caption_num</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># report a warning when both prompt and prompt_key are set</span>
+        <span class="k">if</span> <span class="n">prompt</span> <span class="ow">and</span> <span class="n">prompt_key</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Both the parameter `prompt` and `prompt_key` are &#39;</span>
+                <span class="s1">&#39;set. Data-Juicer will consider `prompt_key` first.&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span> <span class="o">=</span> <span class="n">caption_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">=</span> <span class="n">keep_candidate_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="o">=</span> <span class="n">prompt</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> <span class="o">=</span> <span class="n">prompt_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span>
+
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span> <span class="o">=</span> <span class="n">horizontal_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span> <span class="o">=</span> <span class="n">vertical_flip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;video_blip&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_video_blip</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span>
+        <span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ori_sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">ori_sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># the generated results</span>
+        <span class="n">generated_samples</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="k">for</span> <span class="n">generated_sample</span> <span class="ow">in</span> <span class="n">generated_samples</span><span class="p">:</span>
+            <span class="n">generated_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">processor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+
+            <span class="n">video_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+
+            <span class="c1"># no video or no text</span>
+            <span class="k">if</span> <span class="n">video_count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="n">remove_non_special_tokens</span><span class="p">(</span>
+                    <span class="n">chunk</span><span class="p">)</span>
+                <span class="c1"># generate candidate caption(s) in batch manner</span>
+                <span class="n">generated_text_candidates_single_chunk</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="p">[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span>
+                                                   <span class="n">video_count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="n">video_frame_videos_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+                    <span class="c1"># extract frame videos</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                            <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">frames</span> <span class="o">=</span> <span class="p">[]</span>
+                    <span class="n">frame_videos</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">video</span> <span class="ow">in</span> <span class="n">frame_videos</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">horizontal_flip</span><span class="p">:</span>
+                            <span class="n">video</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">mirror</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">vertical_flip</span><span class="p">:</span>
+                            <span class="n">video</span> <span class="o">=</span> <span class="n">ImageOps</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                        <span class="n">video_frame_videos_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+
+                    <span class="c1"># construct prompts</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span>
+                            <span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">],</span> <span class="nb">str</span><span class="p">):</span>
+                        <span class="c1"># check prompt_key is not None, and it&#39;s a str</span>
+                        <span class="c1"># in the sample</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="n">ori_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_key</span><span class="p">]]</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                        <span class="c1"># check prompt is not None, and it&#39;s a str</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">prompt_texts</span> <span class="o">=</span> <span class="kc">None</span>
+                    <span class="n">inputs</span> <span class="o">=</span> <span class="n">processor</span><span class="p">(</span>
+                        <span class="n">text</span><span class="o">=</span><span class="n">prompt_texts</span><span class="p">,</span>
+                        <span class="n">images</span><span class="o">=</span><span class="n">video_frame_videos_chunk</span><span class="p">,</span>
+                        <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">,</span>
+                        <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                        <span class="n">max_length</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span>
+                        <span class="n">max_position_embeddings</span><span class="p">,</span>
+                        <span class="n">padding</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                    <span class="c1"># tchw to bcthw</span>
+                    <span class="n">inputs</span><span class="p">[</span><span class="s1">&#39;pixel_values&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">inputs</span><span class="o">.</span><span class="n">pixel_values</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span>
+                        <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">permute</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">caption_num</span><span class="p">):</span>
+                        <span class="n">generated_ids</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">,</span>
+                                                       <span class="n">num_beams</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span>
+                                                       <span class="n">max_new_tokens</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+                                                       <span class="n">temperature</span><span class="o">=</span><span class="mf">0.7</span><span class="p">,</span>
+                                                       <span class="n">top_p</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span>
+                                                       <span class="n">repetition_penalty</span><span class="o">=</span><span class="mf">1.5</span><span class="p">,</span>
+                                                       <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="n">generated_text</span> <span class="o">=</span> <span class="n">processor</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span>
+                            <span class="n">generated_ids</span><span class="p">,</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span>
+                            <span class="n">i</span><span class="p">]</span> <span class="o">+=</span> <span class="n">generated_text</span>
+
+                <span class="c1"># 3. insert a list of generated captions into the positions of</span>
+                <span class="c1"># subsequent placeholders in the original string</span>
+                <span class="n">new_generated_text_all_videos</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="p">[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="c1"># new_generated_text_all_videos is a helper array,</span>
+                <span class="c1"># element [i][j]</span>
+                <span class="c1"># denotes the reduced $i$-th result for the $j$-th video</span>
+
+                <span class="c1"># reduce the captions according to given mode video by video</span>
+                <span class="k">for</span> <span class="n">j</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">video_count</span><span class="p">):</span>
+                    <span class="n">new_generated_text_per_video</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reduce_captions</span><span class="p">(</span>
+                        <span class="n">chunk</span><span class="p">,</span>
+                        <span class="p">[</span>
+                            <span class="n">captions</span><span class="p">[</span><span class="n">j</span><span class="p">]</span> <span class="k">for</span> <span class="n">captions</span> <span class="ow">in</span>
+                            <span class="n">generated_text_candidates_single_chunk</span>
+                        <span class="p">],</span>
+                    <span class="p">)</span>
+                    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span>
+                        <span class="n">new_generated_text_per_video</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">new_generated_text_per_video</span><span class="p">)):</span>
+                        <span class="n">new_generated_text_all_videos</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="n">new_generated_text_per_video</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+
+                <span class="c1"># insert the captions according to given mode</span>
+                <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">]</span> <span class="o">*</span> <span class="n">video_count</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_newly_generated_samples</span><span class="p">):</span>
+                    <span class="n">generated_text_per_chunk</span> <span class="o">=</span> <span class="n">insert_texts_after_placeholders</span><span class="p">(</span>
+                        <span class="n">original_string</span><span class="o">=</span><span class="n">text_with_only_special_tokens</span><span class="p">,</span>
+                        <span class="n">placeholders</span><span class="o">=</span><span class="n">place_holders</span><span class="p">,</span>
+                        <span class="n">new_texts</span><span class="o">=</span><span class="n">new_generated_text_all_videos</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
+                    <span class="p">)</span>
+                    <span class="n">generated_samples</span><span class="p">[</span><span class="n">i</span><span class="p">][</span>
+                        <span class="bp">self</span><span class="o">.</span>
+                        <span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">generated_text_per_chunk</span><span class="si">}</span><span class="s1">&#39;</span> \
+                                     <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>
+
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">video_count</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">generated_samples</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_reduce_captions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">chunk</span><span class="p">,</span> <span class="n">generated_text_candidates_single_chunk</span><span class="p">):</span>
+        <span class="n">generated_text_per_chunk</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;random_any&#39;</span><span class="p">:</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">generated_text_candidates_single_chunk</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;all&#39;</span><span class="p">:</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_candidate_mode</span> <span class="o">==</span> <span class="s1">&#39;similar_one_simhash&#39;</span><span class="p">:</span>
+            <span class="kn">from</span><span class="w"> </span><span class="nn">..deduplicator.document_simhash_deduplicator</span><span class="w"> </span><span class="kn">import</span> \
+                <span class="n">DocumentSimhashDeduplicator</span>
+
+            <span class="n">ori_normal_text</span> <span class="o">=</span> <span class="n">remove_special_tokens</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span>
+            <span class="c1"># using a simhash OP to calculate their similarity</span>
+            <span class="c1"># NOTE: simhash is just one method to calculate the similarities</span>
+            <span class="c1"># between texts, but not the most accurate one. More methods (e.g.</span>
+            <span class="c1"># embedding-based, ...) will be added.</span>
+            <span class="n">op_simhash</span> <span class="o">=</span> <span class="n">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">window_size</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span><span class="p">)</span>
+            <span class="n">ori_text_hash</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">({</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                                         <span class="n">ori_normal_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+            <span class="n">generated_text_hashes</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
+                    <span class="n">op_simhash</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">(</span>
+                        <span class="p">{</span><span class="n">op_simhash</span><span class="o">.</span><span class="n">text_key</span><span class="p">:</span>
+                         <span class="n">candidate_text</span><span class="p">})[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">candidate_text</span> <span class="ow">in</span> <span class="n">generated_text_candidates_single_chunk</span>
+            <span class="p">]</span>
+            <span class="n">hamming_distances</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">simhash</span><span class="o">.</span><span class="n">num_differing_bits</span><span class="p">(</span><span class="n">ori_text_hash</span><span class="p">,</span> <span class="n">generated_text_hash</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">generated_text_hash</span> <span class="ow">in</span> <span class="n">generated_text_hashes</span>
+            <span class="p">]</span>
+            <span class="n">max_index</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">hamming_distances</span><span class="p">)),</span>
+                            <span class="n">key</span><span class="o">=</span><span class="n">hamming_distances</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+            <span class="n">generated_text_per_chunk</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">generated_text_candidates_single_chunk</span><span class="p">[</span><span class="n">max_index</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">generated_text_per_chunk</span>
+
+<div class="viewcode-block" id="VideoCaptioningFromVideoMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        :param samples:</span>
+<span class="sd">        :return:</span>
+
+<span class="sd">        Note:</span>
+<span class="sd">            This is a batched_OP, whose the input and output type are</span>
+<span class="sd">            both list. Suppose there are $N$ input sample list with batch</span>
+<span class="sd">            size as $b$, and denote caption_num as $M$.</span>
+<span class="sd">            the number of total samples after generation is $2Nb$</span>
+<span class="sd">            for &#39;random_any&#39; and &#39;similar_one&#39; mode,</span>
+<span class="sd">            and $(1+M)Nb$ for &#39;all&#39; mode.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_generation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do generation for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">,</span>
+                                                            <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                                            <span class="n">context</span><span class="o">=</span><span class="n">context</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_generation</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_generation</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_generation</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html
new file mode 100644
index 000000000..60bbb1d0b
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html
@@ -0,0 +1,292 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_extract_frames_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_extract_frames_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_extract_frames_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">json</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os.path</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">osp</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">dict_to_hash</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span>
+    <span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span> <span class="n">extract_key_frames</span><span class="p">,</span>
+    <span class="n">extract_key_frames_by_seconds</span><span class="p">,</span> <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+    <span class="n">extract_video_frames_uniformly_by_seconds</span><span class="p">,</span> <span class="n">load_data_with_context</span><span class="p">,</span>
+    <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_extract_frames_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoExtractFramesMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoExtractFramesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to extract frames from video files according to specified methods.</span>
+<span class="sd">    Extracted Frames Data Format:</span>
+<span class="sd">        The data format for the extracted frames is a dictionary mapping</span>
+<span class="sd">        video key to extracted frames directory where the extracted</span>
+<span class="sd">        frames are saved. The dictionary follows the structure:</span>
+<span class="sd">        {</span>
+<span class="sd">            &quot;video_key_1&quot;: &quot;/${frame_dir}/video_key_1_filename/&quot;,</span>
+<span class="sd">            &quot;video_key_2&quot;: &quot;/${frame_dir}/video_key_2_filename/&quot;,</span>
+<span class="sd">            ...</span>
+<span class="sd">        }</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoExtractFramesMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+        <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="n">duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">frame_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">frame_key</span><span class="o">=</span><span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_frames</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            videos from the videos. Should be one of</span>
+<span class="sd">            [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number</span>
+<span class="sd">            of which depends on the duration of the video) and the latter</span>
+<span class="sd">            one extract specified number of frames uniformly from the video.</span>
+<span class="sd">            If &quot;duration&quot; &gt; 0, frame_sampling_method acts on every segment.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">            If &quot;duration&quot; &gt; 0, frame_num is the number of frames per segment.</span>
+<span class="sd">        :param duration: The duration of each segment in seconds.</span>
+<span class="sd">            If 0, frames are extracted from the entire video.</span>
+<span class="sd">            If duration &gt; 0, the video is segmented into multiple segments</span>
+<span class="sd">            based on duration, and frames are extracted from each segment.</span>
+<span class="sd">        :param frame_dir: Output directory to save extracted frames.</span>
+<span class="sd">            If None, a default directory based on the video file path is used.</span>
+<span class="sd">        :param frame_key: The name of field to save generated frames info.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_dir</span> <span class="o">=</span> <span class="n">frame_dir</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">duration</span> <span class="o">=</span> <span class="n">duration</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_key</span> <span class="o">=</span> <span class="n">frame_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_fname_template</span> <span class="o">=</span> <span class="s1">&#39;frame_</span><span class="si">{}</span><span class="s1">.jpg&#39;</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_get_default_frame_dir</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">original_filepath</span><span class="p">):</span>
+        <span class="n">original_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">)</span>
+        <span class="n">dir_token</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;/</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/&#39;</span>
+        <span class="k">if</span> <span class="n">dir_token</span> <span class="ow">in</span> <span class="n">original_dir</span><span class="p">:</span>
+            <span class="n">original_dir</span> <span class="o">=</span> <span class="n">original_dir</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">dir_token</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">saved_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+            <span class="n">original_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">OP_NAME</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="n">original_filename</span> <span class="o">=</span> <span class="n">osp</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">osp</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hash_val</span> <span class="o">=</span> <span class="n">dict_to_hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">osp</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">saved_dir</span><span class="p">,</span>
+                        <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">original_filename</span><span class="si">}</span><span class="s1">__dj_hash_#</span><span class="si">{</span><span class="n">hash_val</span><span class="si">}</span><span class="s1">#&#39;</span><span class="p">)</span>
+
+<div class="viewcode-block" id="VideoExtractFramesMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no videos in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+        <span class="n">video_to_frame_dir</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="n">video_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+            <span class="c1"># no video or no text</span>
+            <span class="k">if</span> <span class="n">video_count</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">chunk</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span>
+                                                   <span class="n">video_count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="c1"># extract frame videos</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">duration</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames_by_seconds</span><span class="p">(</span>
+                                <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">duration</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly_by_seconds</span><span class="p">(</span>
+                                <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">,</span> <span class="n">duration</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span>
+                                <span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Not support sampling method </span><span class="se">\</span>
+<span class="s1">                            `</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">`.&#39;</span><span class="p">)</span>
+                    <span class="n">frames</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_dir</span><span class="p">:</span>
+                        <span class="n">frame_dir</span> <span class="o">=</span> <span class="n">osp</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">frame_dir</span><span class="p">,</span>
+                            <span class="n">osp</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">osp</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">video_key</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="c1"># video path as frames directory</span>
+                        <span class="n">frame_dir</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_default_frame_dir</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span>
+                    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">frame_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">video_to_frame_dir</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">frame_dir</span>
+
+                    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">frame</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">frames</span><span class="p">):</span>
+                        <span class="n">frame_path</span> <span class="o">=</span> <span class="n">osp</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                            <span class="n">frame_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_fname_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">))</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">frame_path</span><span class="p">):</span>
+                            <span class="n">frame</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">frame_path</span><span class="p">)</span>
+
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">video_count</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">frame_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">video_to_frame_dir</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html b/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html
new file mode 100644
index 000000000..afb2be978
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html
@@ -0,0 +1,253 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_face_blur_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_face_blur_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_face_blur_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">av</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">PIL</span><span class="w"> </span><span class="kn">import</span> <span class="n">ImageFilter</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">detect_faces</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">,</span>
+                                        <span class="n">process_each_frame</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_face_blur_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoFaceBlurMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">[docs]</a>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoFaceBlurMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to blur faces detected in videos.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;scaleFactor&#39;</span><span class="p">:</span> <span class="mf">1.1</span><span class="p">,</span>
+        <span class="s1">&#39;minNeighbors&#39;</span><span class="p">:</span> <span class="mi">3</span><span class="p">,</span>
+        <span class="s1">&#39;minSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="s1">&#39;maxSize&#39;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="VideoFaceBlurMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
+                 <span class="n">radius</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param cv_classifier: OpenCV classifier path for face detection.</span>
+<span class="sd">            By default, we will use &#39;haarcascade_frontalface_alt.xml&#39;.</span>
+<span class="sd">        :param blur_type: Type of blur kernel, including</span>
+<span class="sd">            [&#39;mean&#39;, &#39;box&#39;, &#39;gaussian&#39;].</span>
+<span class="sd">        :param radius: Radius of blur kernel.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">cv_classifier</span> <span class="o">==</span> <span class="s1">&#39;&#39;</span><span class="p">:</span>
+            <span class="n">cv_classifier</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cv2</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">haarcascades</span><span class="p">,</span>
+                                         <span class="s1">&#39;haarcascade_frontalface_alt.xml&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;mean&#39;</span><span class="p">,</span> <span class="s1">&#39;box&#39;</span><span class="p">,</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Blur_type [</span><span class="si">{</span><span class="n">blur_type</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of [&quot;mean&quot;, &quot;box&quot;, &quot;gaussian&quot;]. &#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">radius</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Radius must be &gt;= 0. &#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;mean&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BLUR</span>
+        <span class="k">elif</span> <span class="n">blur_type</span> <span class="o">==</span> <span class="s1">&#39;box&#39;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">BoxBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">blur</span> <span class="o">=</span> <span class="n">ImageFilter</span><span class="o">.</span><span class="n">GaussianBlur</span><span class="p">(</span><span class="n">radius</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">blur_type</span> <span class="o">=</span> <span class="n">blur_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">radius</span> <span class="o">=</span> <span class="n">radius</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_default_kwargs</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;opencv_classifier&#39;</span><span class="p">,</span>
+                                       <span class="n">model_path</span><span class="o">=</span><span class="n">cv_classifier</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="VideoFaceBlurMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">_blur_func</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+            <span class="n">image</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">()</span>
+            <span class="n">dets</span> <span class="o">=</span> <span class="n">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_kwargs</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dets</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">for</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span> <span class="ow">in</span> <span class="n">dets</span><span class="p">:</span>
+                    <span class="n">box</span> <span class="o">=</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">x</span> <span class="o">+</span> <span class="n">w</span><span class="p">,</span> <span class="n">y</span> <span class="o">+</span> <span class="n">h</span><span class="p">)</span>
+                    <span class="n">blured_roi</span> <span class="o">=</span> <span class="n">image</span><span class="o">.</span><span class="n">crop</span><span class="p">(</span><span class="n">box</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">blur</span><span class="p">)</span>
+                    <span class="n">image</span><span class="o">.</span><span class="n">paste</span><span class="p">(</span><span class="n">blured_roi</span><span class="p">,</span> <span class="n">box</span><span class="p">)</span>
+                <span class="n">frame</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">VideoFrame</span><span class="o">.</span><span class="n">from_image</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">frame</span>
+
+        <span class="n">processed_video_keys</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="c1"># skip duplicate</span>
+            <span class="k">if</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">processed_video_keys</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+            <span class="n">blured_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                 <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="n">output_video_key</span> <span class="o">=</span> <span class="n">process_each_frame</span><span class="p">(</span><span class="n">video</span><span class="p">,</span> <span class="n">blured_video_key</span><span class="p">,</span>
+                                                  <span class="n">_blur_func</span><span class="p">)</span>
+            <span class="n">processed_video_keys</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">output_video_key</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">processed_video_keys</span><span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">processed_video_keys</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span>
+        <span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html b/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html
new file mode 100644
index 000000000..6588dd581
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html
@@ -0,0 +1,204 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+    <span class="n">ffmpeg</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ffmpeg&#39;</span><span class="p">,</span> <span class="s1">&#39;ffmpeg&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_ffmpeg_wrapped_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoFFmpegWrappedMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoFFmpegWrappedMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Simple wrapper for FFmpeg video filters.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoFFmpegWrappedMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">filter_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">filter_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">global_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">capture_stderr</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">overwrite_output</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param filter_name: ffmpeg video filter name.</span>
+<span class="sd">        :param filter_kwargs: keyword-arguments passed to ffmpeg filter.</span>
+<span class="sd">        :param global_args: list-arguments passed to ffmpeg command-line.</span>
+<span class="sd">        :param capture_stderr: whether to capture stderr.</span>
+<span class="sd">        :param overwrite_output: whether to overwrite output file.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span> <span class="o">=</span> <span class="n">filter_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">filter_kwargs</span> <span class="o">=</span> <span class="n">filter_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">global_args</span> <span class="o">=</span> <span class="n">global_args</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">capture_stderr</span> <span class="o">=</span> <span class="n">capture_stderr</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">overwrite_output</span> <span class="o">=</span> <span class="n">overwrite_output</span></div>
+
+
+<div class="viewcode-block" id="VideoFFmpegWrappedMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">processed</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">processed</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">output_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                           <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="n">stream</span> <span class="o">=</span> <span class="p">(</span><span class="n">ffmpeg</span><span class="o">.</span><span class="n">input</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">filter_name</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">filter_kwargs</span><span class="p">)</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">output_key</span><span class="p">))</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">global_args</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">global_args</span><span class="p">(</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">global_args</span><span class="p">)</span>
+            <span class="n">stream</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">capture_stderr</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">capture_stderr</span><span class="p">,</span>
+                       <span class="n">overwrite_output</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">overwrite_output</span><span class="p">)</span>
+            <span class="n">processed</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">output_key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">processed</span><span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">processed</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html b/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html
new file mode 100644
index 000000000..8a830e2f9
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html
@@ -0,0 +1,364 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_remove_watermark_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_remove_watermark_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_remove_watermark_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">av</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">,</span>
+                                        <span class="n">parse_string_to_roi</span><span class="p">,</span>
+                                        <span class="n">process_each_frame</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+    <span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_remove_watermark_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoRemoveWatermarkMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoRemoveWatermarkMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Remove the watermarks in videos given regions.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoRemoveWatermarkMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">roi_strings</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;0,0,0.1,0.1&#39;</span><span class="p">],</span>
+                 <span class="n">roi_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ratio&#39;</span><span class="p">,</span>
+                 <span class="n">roi_key</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">min_frame_threshold</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">7</span><span class="p">,</span>
+                 <span class="n">detection_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;pixel_value&#39;</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param roi_strings: a given list of regions the watermarks locate.</span>
+<span class="sd">            The format of each can be &quot;x1, y1, x2, y2&quot;, &quot;(x1, y1, x2, y2)&quot;,</span>
+<span class="sd">            or &quot;[x1, y1, x2, y2]&quot;.</span>
+<span class="sd">        :param roi_type: the roi string type. When the type is &#39;pixel&#39;, (x1,</span>
+<span class="sd">            y1), (x2, y2) are the locations of pixels in the top left corner</span>
+<span class="sd">            and the bottom right corner respectively. If the roi_type is</span>
+<span class="sd">            &#39;ratio&#39;, the coordinates are normalized by wights and heights.</span>
+<span class="sd">        :param roi_key: the key name of fields in samples to store roi_strings</span>
+<span class="sd">            for each sample. It&#39;s used for set different rois for different</span>
+<span class="sd">            samples. If it&#39;s none, use rois in parameter &quot;roi_strings&quot;.</span>
+<span class="sd">            It&#39;s None in default.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video to detect the pixels of watermark.</span>
+<span class="sd">        :param min_frame_threshold: a coodination is considered as the</span>
+<span class="sd">            location of a watermark pixel when it is that in no less</span>
+<span class="sd">            min_frame_threshold frames.</span>
+<span class="sd">        :param detection_method: the method to detect the pixels of watermark.</span>
+<span class="sd">            If it is &#39;pixel_value&#39;, we consider the distribution of pixel</span>
+<span class="sd">            value in each frame. If it is &#39;pixel_diversity&#39;, we will consider</span>
+<span class="sd">            the pixel diversity in different frames. The min_frame_threshold</span>
+<span class="sd">            is useless and frame_num must be greater than 1 in</span>
+<span class="sd">            &#39;pixel_diversity&#39; mode.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">roi_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;ratio&#39;</span><span class="p">,</span> <span class="s1">&#39;pixel&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;roi_type [</span><span class="si">{</span><span class="n">roi_type</span><span class="si">}</span><span class="s1">]&#39;</span>
+                             <span class="sa">f</span><span class="s1">&#39; is not supported. &#39;</span>
+                             <span class="sa">f</span><span class="s2">&quot;Can only be one of [&#39;ratio&#39;, &#39;pixel&#39;]. &quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">detection_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;pixel_value&#39;</span><span class="p">,</span> <span class="s1">&#39;pixel_diversity&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;etection_method [</span><span class="si">{</span><span class="n">detection_method</span><span class="si">}</span><span class="s1">]&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39; is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s2">&quot;Can only be one of [&#39;pixel_value&#39;, &#39;pixel_diversity&#39;]. &quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">detection_method</span> <span class="o">==</span> <span class="s1">&#39;pixel_diversity&#39;</span> <span class="ow">and</span> <span class="n">frame_num</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;frame_num must be gteater than 1 in &#39;pixel_diversity&#39; mode.&quot;</span><span class="p">)</span>
+
+        <span class="n">rois</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">roi_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">roi_string</span> <span class="ow">in</span> <span class="n">roi_strings</span><span class="p">:</span>
+                <span class="n">roi</span> <span class="o">=</span> <span class="n">parse_string_to_roi</span><span class="p">(</span><span class="n">roi_string</span><span class="p">,</span> <span class="n">roi_type</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">roi</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                        <span class="s1">&#39;The roi in roi_strings must be four no negative&#39;</span>
+                        <span class="s1">&#39; numbers in the format of &quot;x1, y1, x2, y2&quot;, &#39;</span>
+                        <span class="s1">&#39;&quot;(x1, y1, x2, y2)&quot;, or &quot;[x1, y1, x2, y2]&quot;.&#39;</span><span class="p">)</span>
+                <span class="n">rois</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">roi</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">roi_type</span> <span class="o">=</span> <span class="n">roi_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rois</span> <span class="o">=</span> <span class="n">rois</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">roi_key</span> <span class="o">=</span> <span class="n">roi_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_frame_threshold</span> <span class="o">=</span> <span class="n">min_frame_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">detection_method</span> <span class="o">=</span> <span class="n">detection_method</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_detect_watermark_via_pixel_value</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">frames</span><span class="p">,</span> <span class="n">rois</span><span class="p">):</span>
+
+        <span class="n">masks</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">:</span>
+            <span class="n">frame</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">to_ndarray</span><span class="p">(</span><span class="nb">format</span><span class="o">=</span><span class="s1">&#39;bgr24&#39;</span><span class="p">)</span>
+            <span class="n">mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">frame</span><span class="p">[:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">roi</span> <span class="ow">in</span> <span class="n">rois</span><span class="p">:</span>
+                <span class="c1"># dimension of ndarray frame: height x width x channel</span>
+                <span class="n">roi_frame</span> <span class="o">=</span> <span class="n">frame</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span> <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span>
+                <span class="n">gray_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cvtColor</span><span class="p">(</span><span class="n">roi_frame</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">COLOR_BGR2GRAY</span><span class="p">)</span>
+                <span class="n">_</span><span class="p">,</span> <span class="n">binary_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">threshold</span><span class="p">(</span>
+                    <span class="n">gray_frame</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">255</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">THRESH_BINARY</span> <span class="o">+</span> <span class="n">cv2</span><span class="o">.</span><span class="n">THRESH_OTSU</span><span class="p">)</span>
+
+                <span class="c1"># assume the watermark is located in the box, so the pixel in</span>
+                <span class="c1"># the edge must be 0, if not, reverse binary_frame</span>
+                <span class="n">edge_postive_num</span> <span class="o">=</span> <span class="p">(</span><span class="n">binary_frame</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">&gt;</span>
+                                    <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="o">+</span> <span class="p">(</span><span class="n">binary_frame</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+                <span class="n">total</span> <span class="o">=</span> <span class="n">binary_frame</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="n">binary_frame</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+                <span class="k">if</span> <span class="n">edge_postive_num</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">&gt;</span> <span class="n">total</span><span class="p">:</span>
+                    <span class="n">binary_frame</span> <span class="o">=</span> <span class="o">~</span><span class="n">binary_frame</span>
+
+                <span class="n">mask</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span>
+                     <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span> <span class="o">=</span> <span class="n">mask</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span>
+                                           <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span> <span class="o">|</span> <span class="n">binary_frame</span>
+            <span class="n">masks</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">mask</span><span class="p">)</span>
+        <span class="n">final_mask</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">((</span><span class="n">mask</span> <span class="o">==</span> <span class="mi">255</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span> <span class="k">for</span> <span class="n">mask</span> <span class="ow">in</span> <span class="n">masks</span><span class="p">)</span>
+        <span class="n">final_mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">final_mask</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_frame_threshold</span><span class="p">,</span> <span class="mi">255</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="n">final_mask</span> <span class="o">=</span> <span class="n">final_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">final_mask</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_detect_watermark_via_pixel_diversity</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">frames</span><span class="p">,</span> <span class="n">rois</span><span class="p">):</span>
+
+        <span class="n">mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">height</span><span class="p">,</span> <span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">width</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span>
+        <span class="n">frames</span> <span class="o">=</span> <span class="p">[</span><span class="n">frame</span><span class="o">.</span><span class="n">to_ndarray</span><span class="p">(</span><span class="nb">format</span><span class="o">=</span><span class="s1">&#39;bgr24&#39;</span><span class="p">)</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">roi</span> <span class="ow">in</span> <span class="n">rois</span><span class="p">:</span>
+            <span class="n">roi_frames</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">frame</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span> <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span>
+            <span class="p">]</span>
+            <span class="n">roi_frames</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">roi_frames</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">pixel_diversity</span> <span class="o">=</span> <span class="n">roi_frames</span><span class="o">.</span><span class="n">std</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">pixel_diversity</span> <span class="o">=</span> <span class="n">pixel_diversity</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">max_diversity</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">pixel_diversity</span><span class="p">)</span>
+            <span class="n">min_diversity</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">pixel_diversity</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">max_diversity</span> <span class="o">&gt;</span> <span class="n">min_diversity</span><span class="p">:</span>
+                <span class="n">scaled_diversity</span> <span class="o">=</span> <span class="mi">255</span> <span class="o">*</span> <span class="p">(</span><span class="n">pixel_diversity</span> <span class="o">-</span> <span class="n">min_diversity</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span>
+                    <span class="n">max_diversity</span> <span class="o">-</span> <span class="n">min_diversity</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">scaled_diversity</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">pixel_diversity</span><span class="p">)</span>
+            <span class="n">scaled_diversity</span> <span class="o">=</span> <span class="n">scaled_diversity</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span>
+            <span class="n">_</span><span class="p">,</span> <span class="n">binary_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">threshold</span><span class="p">(</span>
+                <span class="n">scaled_diversity</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">255</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">THRESH_BINARY</span> <span class="o">+</span> <span class="n">cv2</span><span class="o">.</span><span class="n">THRESH_OTSU</span><span class="p">)</span>
+            <span class="c1"># the watermark pixels have less diversity</span>
+            <span class="n">binary_frame</span> <span class="o">=</span> <span class="o">~</span><span class="n">binary_frame</span>
+            <span class="n">mask</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span>
+                 <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span> <span class="o">=</span> <span class="n">mask</span><span class="p">[</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">],</span>
+                                       <span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]]</span> <span class="o">|</span> <span class="n">binary_frame</span>
+
+        <span class="k">return</span> <span class="n">mask</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_generate_watermark_mask</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">video</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span><span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">roi_key</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">roi_strings</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">roi_key</span><span class="p">]</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">roi_strings</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                <span class="n">roi_strings</span> <span class="o">=</span> <span class="p">[</span><span class="n">roi_strings</span><span class="p">]</span>
+            <span class="n">rois</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="n">parse_string_to_roi</span><span class="p">(</span><span class="n">roi_string</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">roi_type</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">roi_string</span> <span class="ow">in</span> <span class="n">roi_strings</span>
+            <span class="p">]</span>
+            <span class="n">rois</span> <span class="o">=</span> <span class="p">[</span><span class="n">roi</span> <span class="k">for</span> <span class="n">roi</span> <span class="ow">in</span> <span class="n">rois</span> <span class="k">if</span> <span class="n">roi</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">rois</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rois</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">roi_type</span> <span class="o">==</span> <span class="s1">&#39;ratio&#39;</span><span class="p">:</span>
+            <span class="n">rois</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">tuple</span><span class="p">([</span>
+                    <span class="nb">int</span><span class="p">(</span><span class="n">roi</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">width</span><span class="p">),</span>
+                    <span class="nb">int</span><span class="p">(</span><span class="n">roi</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">*</span> <span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">height</span><span class="p">),</span>
+                    <span class="nb">int</span><span class="p">(</span><span class="n">roi</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">*</span> <span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">width</span><span class="p">),</span>
+                    <span class="nb">int</span><span class="p">(</span><span class="n">roi</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span> <span class="o">*</span> <span class="n">frames</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">height</span><span class="p">)</span>
+                <span class="p">])</span> <span class="k">for</span> <span class="n">roi</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">rois</span>
+            <span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">detection_method</span> <span class="o">==</span> <span class="s1">&#39;pixel_value&#39;</span><span class="p">:</span>
+            <span class="n">mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_detect_watermark_via_pixel_value</span><span class="p">(</span><span class="n">frames</span><span class="p">,</span> <span class="n">rois</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_detect_watermark_via_pixel_diversity</span><span class="p">(</span><span class="n">frames</span><span class="p">,</span> <span class="n">rois</span><span class="p">)</span>
+
+        <span class="n">kernel</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="mi">5</span><span class="p">,</span> <span class="mi">5</span><span class="p">),</span> <span class="n">np</span><span class="o">.</span><span class="n">uint8</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">cv2</span><span class="o">.</span><span class="n">dilate</span><span class="p">(</span><span class="n">mask</span><span class="p">,</span> <span class="n">kernel</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_clean_watermark</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">frame</span><span class="p">,</span> <span class="n">watermark_mask</span><span class="p">):</span>
+        <span class="n">np_frame</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">to_ndarray</span><span class="p">(</span><span class="nb">format</span><span class="o">=</span><span class="s1">&#39;bgr24&#39;</span><span class="p">)</span>
+        <span class="n">new_np_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">inpaint</span><span class="p">(</span><span class="n">np_frame</span><span class="p">,</span> <span class="n">watermark_mask</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">INPAINT_NS</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">av</span><span class="o">.</span><span class="n">VideoFrame</span><span class="o">.</span><span class="n">from_ndarray</span><span class="p">(</span><span class="n">new_np_frame</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;bgr24&#39;</span><span class="p">)</span>
+
+<div class="viewcode-block" id="VideoRemoveWatermarkMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+            <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+            <span class="n">cleaned_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                  <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">cleaned_video_key</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">cleaned_video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">):</span>
+                <span class="n">watermark_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_generate_watermark_mask</span><span class="p">(</span><span class="n">video</span><span class="p">,</span> <span class="n">sample</span><span class="p">)</span>
+
+                <span class="k">def</span><span class="w"> </span><span class="nf">process_frame_func</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+                    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_clean_watermark</span><span class="p">(</span><span class="n">frame</span><span class="p">,</span> <span class="n">watermark_mask</span><span class="p">)</span>
+
+                <span class="n">cleaned_video_key</span> <span class="o">=</span> <span class="n">process_each_frame</span><span class="p">(</span><span class="n">video</span><span class="p">,</span>
+                                                       <span class="n">cleaned_video_key</span><span class="p">,</span>
+                                                       <span class="n">process_frame_func</span><span class="p">)</span>
+
+            <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">index</span><span class="p">]</span> <span class="o">=</span> <span class="n">cleaned_video_key</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_video_keys</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html b/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html
new file mode 100644
index 000000000..130018cdc
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html
@@ -0,0 +1,275 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_resize_aspect_ratio_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">math</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">fractions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fraction</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">close_video</span><span class="p">,</span> <span class="n">load_video</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+    <span class="n">ffmpeg</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ffmpeg&#39;</span><span class="p">,</span> <span class="s1">&#39;ffmpeg&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_resize_aspect_ratio_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="rescale">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">rescale</span><span class="p">(</span><span class="n">width</span><span class="p">,</span> <span class="n">height</span><span class="p">,</span> <span class="n">ori_ratio</span><span class="p">,</span> <span class="n">min_ratio</span><span class="p">,</span> <span class="n">max_ratio</span><span class="p">,</span> <span class="n">strategy</span><span class="p">):</span>
+
+    <span class="n">scaled_width</span> <span class="o">=</span> <span class="n">width</span>
+    <span class="n">scaled_height</span> <span class="o">=</span> <span class="n">height</span>
+    <span class="n">ori_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">ori_ratio</span><span class="p">)</span>
+    <span class="n">min_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">min_ratio</span><span class="p">)</span>
+    <span class="n">max_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">max_ratio</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">ori_ratio</span> <span class="o">&lt;</span> <span class="n">min_ratio</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">strategy</span> <span class="o">==</span> <span class="s1">&#39;increase&#39;</span><span class="p">:</span>
+            <span class="c1"># increase width to meet the min ratio</span>
+            <span class="n">scaled_width</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="n">height</span> <span class="o">*</span> <span class="n">min_ratio</span><span class="p">)</span>
+            <span class="n">scaled_width</span> <span class="o">+=</span> <span class="n">scaled_width</span> <span class="o">%</span> <span class="mi">2</span>
+        <span class="k">elif</span> <span class="n">strategy</span> <span class="o">==</span> <span class="s1">&#39;decrease&#39;</span><span class="p">:</span>
+            <span class="c1"># decrease height to meet the min ratio</span>
+            <span class="n">scaled_height</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">width</span> <span class="o">/</span> <span class="n">min_ratio</span><span class="p">)</span>
+            <span class="n">scaled_height</span> <span class="o">-=</span> <span class="n">scaled_height</span> <span class="o">%</span> <span class="mi">2</span>
+
+    <span class="k">elif</span> <span class="n">ori_ratio</span> <span class="o">&gt;</span> <span class="n">max_ratio</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">strategy</span> <span class="o">==</span> <span class="s1">&#39;increase&#39;</span><span class="p">:</span>
+            <span class="c1"># increase height to meet the max ratio</span>
+            <span class="n">scaled_height</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="n">width</span> <span class="o">/</span> <span class="n">max_ratio</span><span class="p">)</span>
+            <span class="n">scaled_height</span> <span class="o">+=</span> <span class="n">scaled_height</span> <span class="o">%</span> <span class="mi">2</span>
+
+        <span class="k">elif</span> <span class="n">strategy</span> <span class="o">==</span> <span class="s1">&#39;decrease&#39;</span><span class="p">:</span>
+            <span class="c1"># decrease width to meet the max ratio</span>
+            <span class="n">scaled_width</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">height</span> <span class="o">*</span> <span class="n">max_ratio</span><span class="p">)</span>
+            <span class="n">scaled_width</span> <span class="o">-=</span> <span class="n">scaled_width</span> <span class="o">%</span> <span class="mi">2</span>
+
+    <span class="k">assert</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">min_ratio</span>
+    <span class="k">assert</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="n">max_ratio</span>
+
+    <span class="n">scaled_width</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="n">scaled_width</span><span class="p">)</span>
+    <span class="n">scaled_height</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="n">scaled_height</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span></div>
+
+
+
+<div class="viewcode-block" id="VideoResizeAspectRatioMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoResizeAspectRatioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to resize videos by aspect ratio.</span>
+<span class="sd">    AspectRatio = W / H.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">STRATEGY</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;decrease&#39;</span><span class="p">,</span> <span class="s1">&#39;increase&#39;</span><span class="p">]</span>
+
+<div class="viewcode-block" id="VideoResizeAspectRatioMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;9/21&#39;</span><span class="p">,</span>
+        <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;21/9&#39;</span><span class="p">,</span>
+        <span class="n">strategy</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;increase&#39;</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_ratio: The minimum aspect ratio to enforce videos with</span>
+<span class="sd">            an aspect ratio below `min_ratio` will be resized to match</span>
+<span class="sd">            this minimum ratio. The ratio should be provided as a string</span>
+<span class="sd">            in the format &quot;9:21&quot; or &quot;9/21&quot;.</span>
+<span class="sd">        :param max_ratio: The maximum aspect ratio to enforce videos with</span>
+<span class="sd">            an aspect ratio above `max_ratio` will be resized to match</span>
+<span class="sd">            this maximum ratio. The ratio should be provided as a string</span>
+<span class="sd">            in the format &quot;21:9&quot; or &quot;21/9&quot;.</span>
+<span class="sd">        :param strategy: The resizing strategy to apply when adjusting the</span>
+<span class="sd">            video dimensions. It can be either &#39;decrease&#39; to reduce the</span>
+<span class="sd">            dimension or &#39;increase&#39; to enlarge it. Accepted values are</span>
+<span class="sd">            [&#39;decrease&#39;, &#39;increase&#39;].</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="n">strategy</span> <span class="o">=</span> <span class="n">strategy</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">strategy</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STRATEGY</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;force_original_aspect_ratio [</span><span class="si">{</span><span class="n">strategy</span><span class="si">}</span><span class="s1">] is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">STRATEGY</span><span class="si">}</span><span class="s1">. &#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">min_ratio</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;/&#39;</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">max_ratio</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;/&#39;</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">strategy</span> <span class="o">=</span> <span class="n">strategy</span></div>
+
+
+<div class="viewcode-block" id="VideoResizeAspectRatioMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+
+            <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span>
+            <span class="n">video</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">original_width</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+            <span class="n">original_height</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+            <span class="n">original_aspect_ratio</span> <span class="o">=</span> <span class="n">Fraction</span><span class="p">(</span><span class="n">original_width</span><span class="p">,</span> <span class="n">original_height</span><span class="p">)</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span><span class="n">original_aspect_ratio</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span>
+                    <span class="ow">and</span> <span class="n">original_aspect_ratio</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">):</span>
+                <span class="k">continue</span>
+
+            <span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span> <span class="o">=</span> <span class="n">rescale</span><span class="p">(</span>
+                <span class="n">original_width</span><span class="p">,</span>
+                <span class="n">original_height</span><span class="p">,</span>
+                <span class="n">original_aspect_ratio</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">strategy</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">resized_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                  <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="k">if</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">resized_video_key</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">resized_video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">):</span>
+                <span class="n">args</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;-nostdin&#39;</span><span class="p">,</span> <span class="s1">&#39;-v&#39;</span><span class="p">,</span> <span class="s1">&#39;quiet&#39;</span><span class="p">,</span> <span class="s1">&#39;-y&#39;</span><span class="p">]</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">ffmpeg</span><span class="o">.</span><span class="n">input</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="s1">&#39;scale&#39;</span><span class="p">,</span>
+                                       <span class="n">width</span><span class="o">=</span><span class="n">scaled_width</span><span class="p">,</span>
+                                       <span class="n">height</span><span class="o">=</span><span class="n">scaled_height</span><span class="p">)</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">resized_video_key</span><span class="p">)</span><span class="o">.</span><span class="n">global_args</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">)</span>
+                <span class="n">stream</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>
+            <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">index</span><span class="p">]</span> <span class="o">=</span> <span class="n">resized_video_key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_video_keys</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html b/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html
new file mode 100644
index 000000000..addd3d800
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html
@@ -0,0 +1,296 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_resize_resolution_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_resize_resolution_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_resize_resolution_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">math</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">transfer_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.logger_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">HiddenPrints</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">close_video</span><span class="p">,</span> <span class="n">load_video</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="k">with</span> <span class="n">HiddenPrints</span><span class="p">():</span>
+    <span class="n">ffmpeg</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ffmpeg&#39;</span><span class="p">,</span> <span class="s1">&#39;ffmpeg&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_resize_resolution_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoResizeResolutionMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoResizeResolutionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Mapper to resize videos resolution. We leave the super resolution</span>
+<span class="sd">        with deep learning for future works.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VideoResizeResolutionMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">min_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+                 <span class="n">max_height</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
+                 <span class="n">force_original_aspect_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;disable&#39;</span><span class="p">,</span>
+                 <span class="n">force_divisible_by</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param min_width: Videos with width less than &#39;min_width&#39; will be</span>
+<span class="sd">            mapped to videos with equal or bigger width.</span>
+<span class="sd">        :param max_width: Videos with width more than &#39;max_width&#39; will be</span>
+<span class="sd">            mapped to videos with equal of smaller width.</span>
+<span class="sd">        :param min_height: Videos with height less than &#39;min_height&#39; will be</span>
+<span class="sd">            mapped to videos with equal or bigger height.</span>
+<span class="sd">        :param max_height: Videos with height more than &#39;max_height&#39; will be</span>
+<span class="sd">            mapped to videos with equal or smaller height.</span>
+<span class="sd">        :param force_original_aspect_ratio: Enable decreasing or \</span>
+<span class="sd">            increasing output video width or height if necessary \</span>
+<span class="sd">            to keep the original aspect ratio, including [&#39;disable&#39;, \</span>
+<span class="sd">            &#39;decrease&#39;, &#39;increase&#39;].</span>
+<span class="sd">        :param force_divisible_by: Ensures that both the output dimensions, \</span>
+<span class="sd">            width and height, are divisible by the given integer when used \</span>
+<span class="sd">            together with force_original_aspect_ratio, must be a positive \</span>
+<span class="sd">            even number.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="n">force_original_aspect_ratio</span> <span class="o">=</span> <span class="n">force_original_aspect_ratio</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">force_original_aspect_ratio</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s1">&#39;disable&#39;</span><span class="p">,</span> <span class="s1">&#39;decrease&#39;</span><span class="p">,</span> <span class="s1">&#39;increase&#39;</span>
+        <span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;force_original_aspect_ratio [</span><span class="si">{</span><span class="n">force_original_aspect_ratio</span><span class="si">}</span><span class="s1">]&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39; is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s2">&quot;Can only be one of [&#39;disable&#39;, &#39;decrease&#39;, &#39;increase&#39;]. &quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="p">(</span><span class="n">force_divisible_by</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="n">force_divisible_by</span> <span class="o">%</span> <span class="mi">2</span>
+                <span class="o">==</span> <span class="mi">1</span><span class="p">)</span> <span class="ow">and</span> <span class="n">force_original_aspect_ratio</span> <span class="o">!=</span> <span class="s1">&#39;disable&#39;</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;force_divisible_by [</span><span class="si">{</span><span class="n">force_divisible_by</span><span class="si">}</span><span class="s1">] must be a positive&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39; even number. &#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">=</span> <span class="n">min_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span> <span class="o">=</span> <span class="n">max_width</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">=</span> <span class="n">min_height</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span> <span class="o">=</span> <span class="n">max_height</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scale_method</span> <span class="o">=</span> <span class="s1">&#39;scale&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">force_original_aspect_ratio</span> <span class="o">=</span> <span class="n">force_original_aspect_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">force_divisible_by</span> <span class="o">=</span> <span class="n">force_divisible_by</span></div>
+
+
+<div class="viewcode-block" id="VideoResizeResolutionMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+
+            <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span>
+            <span class="n">video</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="n">video</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+            <span class="n">origin_ratio</span> <span class="o">=</span> <span class="n">width</span> <span class="o">/</span> <span class="n">height</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">width</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="ow">and</span> <span class="n">width</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span> <span class="ow">and</span> \
+               <span class="n">height</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="ow">and</span> <span class="n">height</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># keep the original aspect ratio as possible</span>
+            <span class="k">if</span> <span class="n">width</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span><span class="p">:</span>
+                <span class="n">height</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span> <span class="o">/</span> <span class="n">origin_ratio</span>
+                <span class="n">width</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span>
+            <span class="k">if</span> <span class="n">width</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span><span class="p">:</span>
+                <span class="n">height</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span> <span class="o">/</span> <span class="n">origin_ratio</span>
+                <span class="n">width</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span>
+            <span class="k">if</span> <span class="n">height</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span><span class="p">:</span>
+                <span class="n">width</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span> <span class="o">*</span> <span class="n">origin_ratio</span>
+                <span class="n">height</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span>
+            <span class="k">if</span> <span class="n">height</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span><span class="p">:</span>
+                <span class="n">width</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span> <span class="o">*</span> <span class="n">origin_ratio</span>
+                <span class="n">height</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span>
+
+            <span class="c1"># the width and height of a video must be divisible by 2.</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">force_original_aspect_ratio</span> <span class="o">==</span> <span class="s1">&#39;disable&#39;</span><span class="p">:</span>
+                <span class="n">force_divisible_by</span> <span class="o">=</span> <span class="mi">2</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">force_divisible_by</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">force_divisible_by</span>
+
+            <span class="c1"># make sure in the range if possible</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">max</span><span class="p">(</span><span class="n">width</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_width</span><span class="p">))</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="n">width</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">)</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">width</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_width</span><span class="p">))</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">width</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">)</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">max</span><span class="p">(</span><span class="n">height</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_height</span><span class="p">))</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span>
+                <span class="n">height</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">)</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">height</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_height</span><span class="p">))</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">height</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">)</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+
+            <span class="c1"># keep the origin aspect ratio</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">force_original_aspect_ratio</span> <span class="o">==</span> <span class="s1">&#39;increase&#39;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">width</span> <span class="o">/</span> <span class="n">height</span> <span class="o">&lt;</span> <span class="n">origin_ratio</span><span class="p">:</span>
+                    <span class="n">width</span> <span class="o">=</span> <span class="n">height</span> <span class="o">*</span> <span class="n">origin_ratio</span>
+                <span class="k">elif</span> <span class="n">width</span> <span class="o">/</span> <span class="n">height</span> <span class="o">&gt;</span> <span class="n">origin_ratio</span><span class="p">:</span>
+                    <span class="n">height</span> <span class="o">=</span> <span class="n">width</span> <span class="o">/</span> <span class="n">origin_ratio</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">force_original_aspect_ratio</span> <span class="o">==</span> <span class="s1">&#39;decrease&#39;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">width</span> <span class="o">/</span> <span class="n">height</span> <span class="o">&lt;</span> <span class="n">origin_ratio</span><span class="p">:</span>
+                    <span class="n">height</span> <span class="o">=</span> <span class="n">width</span> <span class="o">/</span> <span class="n">origin_ratio</span>
+                <span class="k">elif</span> <span class="n">width</span> <span class="o">/</span> <span class="n">height</span> <span class="o">&gt;</span> <span class="n">origin_ratio</span><span class="p">:</span>
+                    <span class="n">width</span> <span class="o">=</span> <span class="n">height</span> <span class="o">*</span> <span class="n">origin_ratio</span>
+            <span class="n">width</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span><span class="n">width</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">))</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+            <span class="n">height</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span>
+                <span class="n">height</span> <span class="o">/</span> <span class="n">force_divisible_by</span><span class="p">))</span> <span class="o">*</span> <span class="n">force_divisible_by</span>
+
+            <span class="c1"># resize</span>
+            <span class="n">resized_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                  <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="k">if</span> <span class="p">(</span><span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">resized_video_key</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">resized_video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">):</span>
+                <span class="n">args</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;-nostdin&#39;</span><span class="p">,</span> <span class="s1">&#39;-v&#39;</span><span class="p">,</span> <span class="s1">&#39;quiet&#39;</span><span class="p">,</span>
+                        <span class="s1">&#39;-y&#39;</span><span class="p">]</span>  <span class="c1"># close the ffmpeg log</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">ffmpeg</span><span class="o">.</span><span class="n">input</span><span class="p">(</span><span class="n">video_key</span><span class="p">)</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="s1">&#39;scale&#39;</span><span class="p">,</span> <span class="n">width</span><span class="o">=</span><span class="n">width</span><span class="p">,</span> <span class="n">height</span><span class="o">=</span><span class="n">height</span><span class="p">)</span>
+                <span class="n">stream</span> <span class="o">=</span> <span class="n">stream</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">resized_video_key</span><span class="p">)</span><span class="o">.</span><span class="n">global_args</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">)</span>
+                <span class="n">stream</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>
+
+            <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">index</span><span class="p">]</span> <span class="o">=</span> <span class="n">resized_video_key</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]):</span>
+            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">value</span><span class="p">:</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_video_keys</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html
new file mode 100644
index 000000000..58d33a952
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html
@@ -0,0 +1,290 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_split_by_duration_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_split_by_duration_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_split_by_duration_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">add_suffix_to_filename</span><span class="p">,</span>
+                                          <span class="n">transfer_filename</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">cut_video_by_seconds</span><span class="p">,</span>
+                                        <span class="n">get_video_duration</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+
+<div class="viewcode-block" id="create_replacer">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">create_replacer</span><span class="p">(</span><span class="n">replacements</span><span class="p">):</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">replacer</span><span class="p">(</span><span class="n">match</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">replacements</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">replacer</span></div>
+
+
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_duration_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoSplitByDurationMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoSplitByDurationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split video by duration.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoSplitByDurationMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">split_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+                 <span class="n">min_last_split_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param split_duration: duration of each video split in seconds.</span>
+<span class="sd">        :param min_last_split_duration: The minimum allowable duration in</span>
+<span class="sd">            seconds for the last video split. If the duration of the last</span>
+<span class="sd">            split is less than this value, it will be discarded.</span>
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only cut sample in the</span>
+<span class="sd">            final datasets and the original sample will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">split_duration</span> <span class="o">=</span> <span class="n">split_duration</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_last_split_duration</span> <span class="o">=</span> <span class="n">min_last_split_duration</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span></div>
+
+
+<div class="viewcode-block" id="VideoSplitByDurationMapper.split_videos_by_duration">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">split_videos_by_duration</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">container</span><span class="p">):</span>
+        <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+        <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+        <span class="n">count</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">split_video_keys</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">unique_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                             <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+            <span class="n">split_video_key</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">unique_video_key</span><span class="p">,</span>
+                                                     <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">count</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="n">split_video_key</span><span class="p">,</span>
+                                    <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">]):</span>
+                <span class="n">split_video_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">split_video_key</span><span class="p">)</span>
+                <span class="n">count</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="k">if</span> <span class="n">video_duration</span> <span class="o">-</span> <span class="n">timestamps</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_last_split_duration</span><span class="p">:</span>
+            <span class="n">split_video_key</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">unique_video_key</span><span class="p">,</span>
+                                                     <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">count</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="n">split_video_key</span><span class="p">,</span>
+                                    <span class="n">timestamps</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]):</span>
+                <span class="n">split_video_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">split_video_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">split_video_keys</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="n">sample</span><span class="p">[</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">])</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="c1"># the split results</span>
+        <span class="n">split_sample</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="n">split_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">split_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="c1"># load all video(s)</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">videos</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">loaded_video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="c1"># avoid loading the same videos</span>
+                <span class="n">video</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">loaded_video_key</span><span class="p">)</span>
+                <span class="n">videos</span><span class="p">[</span><span class="n">loaded_video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">video</span>
+
+        <span class="n">split_video_keys</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="c1"># split each video chunk by chunk</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks or contents after the last eoc token</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">video_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+                <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span>
+                                                   <span class="n">video_count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="n">new_video_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_videos_by_duration</span><span class="p">(</span>
+                        <span class="n">video_key</span><span class="p">,</span> <span class="n">video</span><span class="p">)</span>
+                    <span class="n">close_video</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                    <span class="n">split_video_keys</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">)</span>
+                    <span class="n">place_holders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span> <span class="o">*</span>
+                                         <span class="nb">len</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">))</span>
+                    <span class="n">split_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                        <span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">))</span>
+
+                <span class="c1"># insert the generated text according to given mode</span>
+                <span class="n">replacer_function</span> <span class="o">=</span> <span class="n">create_replacer</span><span class="p">(</span><span class="n">place_holders</span><span class="p">)</span>
+                <span class="n">new_split_text_per_chunk</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">,</span>
+                                                  <span class="n">replacer_function</span><span class="p">,</span> <span class="n">chunk</span><span class="p">)</span>
+                <span class="n">split_sample</span><span class="p">[</span>
+                    <span class="bp">self</span><span class="o">.</span>
+                    <span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_split_text_per_chunk</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>  <span class="c1"># noqa: E501</span>
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">video_count</span>
+
+        <span class="n">split_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">split_video_keys</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">split_sample</span><span class="p">]</span>
+
+<div class="viewcode-block" id="VideoSplitByDurationMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_split</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do split for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_split</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_split</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html
new file mode 100644
index 000000000..234b4d5ad
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html
@@ -0,0 +1,273 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_split_by_key_frame_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_split_by_key_frame_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_split_by_key_frame_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">add_suffix_to_filename</span><span class="p">,</span>
+                                          <span class="n">transfer_filename</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">SpecialTokens</span><span class="p">,</span> <span class="n">close_video</span><span class="p">,</span>
+                                        <span class="n">cut_video_by_seconds</span><span class="p">,</span>
+                                        <span class="n">get_key_frame_seconds</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+
+<div class="viewcode-block" id="create_replacer">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">create_replacer</span><span class="p">(</span><span class="n">replacements</span><span class="p">):</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">replacer</span><span class="p">(</span><span class="n">match</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">replacements</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">replacer</span></div>
+
+
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_key_frame_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoSplitByKeyFrameMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoSplitByKeyFrameMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split video by key frame.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="VideoSplitByKeyFrameMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param keep_original_sample: whether to keep the original sample. If</span>
+<span class="sd">            it&#39;s set to False, there will be only split sample in the</span>
+<span class="sd">            final datasets and the original sample will be removed. It&#39;s True</span>
+<span class="sd">            in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span> <span class="o">=</span> <span class="n">keep_original_sample</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_args</span> <span class="o">=</span> <span class="n">kwargs</span></div>
+
+
+<div class="viewcode-block" id="VideoSplitByKeyFrameMapper.get_split_key_frame">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_split_key_frame</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">container</span><span class="p">):</span>
+        <span class="n">timestamps</span> <span class="o">=</span> <span class="n">get_key_frame_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+
+        <span class="n">count</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">split_video_keys</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">unique_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                             <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+            <span class="n">split_video_key</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">unique_video_key</span><span class="p">,</span>
+                                                     <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">count</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="n">split_video_key</span><span class="p">,</span>
+                                    <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">]):</span>
+                <span class="n">split_video_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">split_video_key</span><span class="p">)</span>
+                <span class="n">count</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="n">split_video_key</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">unique_video_key</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">count</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="n">split_video_key</span><span class="p">,</span> <span class="n">timestamps</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]):</span>
+            <span class="n">split_video_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">split_video_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">split_video_keys</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_process_single_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="n">sample</span><span class="p">[</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">])</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="p">[]</span>
+
+        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="c1"># the split results</span>
+        <span class="n">split_sample</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
+        <span class="n">split_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
+        <span class="n">split_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="c1"># load all video(s)</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">videos</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">loaded_video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="c1"># avoid loading the same videos</span>
+                <span class="n">video</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">loaded_video_key</span><span class="p">)</span>
+                <span class="n">videos</span><span class="p">[</span><span class="n">loaded_video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">video</span>
+
+        <span class="n">split_video_keys</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">offset</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="c1"># split each video chunk by chunk</span>
+        <span class="k">for</span> <span class="n">chunk</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="p">):</span>
+            <span class="c1"># skip empty chunks or contents after the last eoc token</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">chunk</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
+                <span class="k">continue</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">video_count</span> <span class="o">=</span> <span class="n">chunk</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">)</span>
+                <span class="n">place_holders</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">[</span><span class="n">offset</span><span class="p">:</span><span class="n">offset</span> <span class="o">+</span>
+                                                   <span class="n">video_count</span><span class="p">]:</span>
+                    <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+                    <span class="n">new_video_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_split_key_frame</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">video</span><span class="p">)</span>
+                    <span class="n">close_video</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+                    <span class="n">split_video_keys</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">)</span>
+                    <span class="n">place_holders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span> <span class="o">*</span>
+                                         <span class="nb">len</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">))</span>
+                    <span class="n">split_sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span>
+                        <span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">new_video_keys</span><span class="p">))</span>
+
+                <span class="c1"># insert the generated text according to given mode</span>
+                <span class="n">replacer_function</span> <span class="o">=</span> <span class="n">create_replacer</span><span class="p">(</span><span class="n">place_holders</span><span class="p">)</span>
+                <span class="n">new_split_text_per_chunk</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">,</span>
+                                                  <span class="n">replacer_function</span><span class="p">,</span> <span class="n">chunk</span><span class="p">)</span>
+                <span class="n">split_sample</span><span class="p">[</span>
+                    <span class="bp">self</span><span class="o">.</span>
+                    <span class="n">text_key</span><span class="p">]</span> <span class="o">+=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_split_text_per_chunk</span><span class="si">}{</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">eoc</span><span class="si">}</span><span class="s1">&#39;</span>  <span class="c1"># noqa: E501</span>
+                <span class="n">offset</span> <span class="o">+=</span> <span class="n">video_count</span>
+
+        <span class="n">split_sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">split_video_keys</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">split_sample</span><span class="p">]</span>
+
+<div class="viewcode-block" id="VideoSplitByKeyFrameMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
+        <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])):</span>
+            <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span>
+                 <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
+        <span class="n">samples_after_split</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="c1"># do split for each sample within the batch</span>
+        <span class="k">for</span> <span class="n">ori_sample</span> <span class="ow">in</span> <span class="n">reconstructed_samples</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">keep_original_sample</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="n">generated_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">ori_sample</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">samples_after_split</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">generated_samples</span><span class="p">)</span>
+        <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
+        <span class="n">keys</span> <span class="o">=</span> <span class="n">samples_after_split</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+            <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples_after_split</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">res_samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html
new file mode 100644
index 000000000..2117546f3
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html
@@ -0,0 +1,271 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_split_by_scene_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_split_by_scene_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_split_by_scene_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">math</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">itertools</span><span class="w"> </span><span class="kn">import</span> <span class="n">chain</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">NonNegativeFloat</span><span class="p">,</span> <span class="n">NonNegativeInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">add_suffix_to_filename</span><span class="p">,</span>
+                                          <span class="n">transfer_filename</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">SpecialTokens</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">scenedetect</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;scenedetect&#39;</span><span class="p">,</span> <span class="s1">&#39;scenedetect&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_scene_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="replace_func">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">replace_func</span><span class="p">(</span><span class="n">match</span><span class="p">,</span> <span class="n">scene_counts_iter</span><span class="p">):</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">count</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">scene_counts_iter</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span> <span class="o">*</span> <span class="n">count</span>
+    <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="VideoSplitBySceneMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoSplitBySceneMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to cut videos into scene clips.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># Define shared detector keys and their properties</span>
+    <span class="n">avaliable_detectors</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;ContentDetector&#39;</span><span class="p">:</span> <span class="p">[</span><span class="s1">&#39;weights&#39;</span><span class="p">,</span> <span class="s1">&#39;luma_only&#39;</span><span class="p">,</span> <span class="s1">&#39;kernel_size&#39;</span><span class="p">],</span>
+        <span class="s1">&#39;AdaptiveDetector&#39;</span><span class="p">:</span> <span class="p">[</span>
+            <span class="s1">&#39;window_width&#39;</span><span class="p">,</span> <span class="s1">&#39;min_content_val&#39;</span><span class="p">,</span> <span class="s1">&#39;weights&#39;</span><span class="p">,</span> <span class="s1">&#39;luma_only&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;kernel_size&#39;</span><span class="p">,</span> <span class="s1">&#39;video_manager&#39;</span><span class="p">,</span> <span class="s1">&#39;min_delta_hsv&#39;</span>
+        <span class="p">],</span>
+        <span class="s1">&#39;ThresholdDetector&#39;</span><span class="p">:</span>
+        <span class="p">[</span><span class="s1">&#39;fade_bias&#39;</span><span class="p">,</span> <span class="s1">&#39;add_final_scene&#39;</span><span class="p">,</span> <span class="s1">&#39;method&#39;</span><span class="p">,</span> <span class="s1">&#39;block_size&#39;</span><span class="p">]</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="VideoSplitBySceneMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">detector</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ContentDetector&#39;</span><span class="p">,</span>
+                 <span class="n">threshold</span><span class="p">:</span> <span class="n">NonNegativeFloat</span> <span class="o">=</span> <span class="mf">27.0</span><span class="p">,</span>
+                 <span class="n">min_scene_len</span><span class="p">:</span> <span class="n">NonNegativeInt</span> <span class="o">=</span> <span class="mi">15</span><span class="p">,</span>
+                 <span class="n">show_progress</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param detector: Algorithm from `scenedetect.detectors`. Should be one</span>
+<span class="sd">            of [&#39;ContentDetector&#39;, &#39;ThresholdDetector&#39;, &#39;AdaptiveDetector`].</span>
+<span class="sd">        :param threshold: Threshold passed to the detector.</span>
+<span class="sd">        :param min_scene_len: Minimum length of any scene.</span>
+<span class="sd">        :param show_progress: Whether to show progress from scenedetect.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_extra_parameters</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">detector</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">avaliable_detectors</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Scene detector </span><span class="si">{</span><span class="n">detector</span><span class="si">}</span><span class="s1"> is not supported. &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Can only be one of </span><span class="si">{</span><span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">avaliable_detectors</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">detector</span> <span class="o">=</span> <span class="n">detector</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">threshold</span> <span class="o">=</span> <span class="n">threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">min_scene_len</span> <span class="o">=</span> <span class="n">min_scene_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">show_progress</span> <span class="o">=</span> <span class="n">show_progress</span>
+
+        <span class="c1"># prepare detector args</span>
+        <span class="n">avaliable_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">avaliable_detectors</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">detector</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">detector_class</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">scenedetect</span><span class="o">.</span><span class="n">detectors</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">detector</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">detector_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">key</span><span class="p">:</span> <span class="n">kwargs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">avaliable_kwargs</span> <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">kwargs</span>
+        <span class="p">}</span></div>
+
+
+<div class="viewcode-block" id="VideoSplitBySceneMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">output_video_keys</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">scene_counts</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">for</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+
+            <span class="c1"># skip duplicate</span>
+            <span class="k">if</span> <span class="n">video_key</span> <span class="ow">in</span> <span class="n">output_video_keys</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">redirected_video_key</span> <span class="o">=</span> <span class="n">transfer_filename</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span> <span class="n">OP_NAME</span><span class="p">,</span>
+                                                     <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">_init_parameters</span><span class="p">)</span>
+            <span class="n">output_template</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">redirected_video_key</span><span class="p">,</span>
+                                                     <span class="s1">&#39;_$SCENE_NUMBER&#39;</span><span class="p">)</span>
+
+            <span class="c1"># detect scenes</span>
+            <span class="n">detector</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">detector_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">threshold</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_scene_len</span><span class="p">,</span>
+                                           <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">detector_kwargs</span><span class="p">)</span>
+            <span class="n">scene_list</span> <span class="o">=</span> <span class="n">scenedetect</span><span class="o">.</span><span class="n">detect</span><span class="p">(</span><span class="n">video_key</span><span class="p">,</span>
+                                            <span class="n">detector</span><span class="p">,</span>
+                                            <span class="n">show_progress</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">show_progress</span><span class="p">,</span>
+                                            <span class="n">start_in_scene</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">scene_counts</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">scene_list</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">scene_list</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="c1"># sync with split_video_ffmpeg internal</span>
+                <span class="n">scene_num_format</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;%0</span><span class="si">{</span><span class="nb">max</span><span class="p">(</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">scene_list</span><span class="p">),</span><span class="w"> </span><span class="mi">10</span><span class="p">))</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">)</span><span class="si">}</span><span class="s1">d&#39;</span>  <span class="c1"># noqa: E501</span>
+                <span class="n">output_video_keys</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">output_template</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;$SCENE_NUMBER&#39;</span><span class="p">,</span>
+                                            <span class="n">scene_num_format</span> <span class="o">%</span> <span class="p">(</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">))</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">scene_list</span><span class="p">))</span>
+                <span class="p">]</span>
+                <span class="c1"># split video into clips</span>
+                <span class="n">scenedetect</span><span class="o">.</span><span class="n">split_video_ffmpeg</span><span class="p">(</span>
+                    <span class="n">input_video_path</span><span class="o">=</span><span class="n">video_key</span><span class="p">,</span>
+                    <span class="n">scene_list</span><span class="o">=</span><span class="n">scene_list</span><span class="p">,</span>
+                    <span class="n">output_file_template</span><span class="o">=</span><span class="n">output_template</span><span class="p">,</span>
+                    <span class="n">show_progress</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">show_progress</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">output_video_keys</span><span class="p">[</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="c1"># replace splited video tokens</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
+            <span class="n">scene_counts_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span>
+                <span class="p">[</span><span class="n">scene_counts</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">])</span>
+            <span class="n">updated_text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span>
+                <span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span><span class="p">),</span>
+                <span class="k">lambda</span> <span class="n">match</span><span class="p">:</span> <span class="n">replace_func</span><span class="p">(</span><span class="n">match</span><span class="p">,</span> <span class="n">scene_counts_iter</span><span class="p">),</span>
+                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
+            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">updated_text</span>
+
+        <span class="c1"># when the file is modified, its source file needs to be updated.</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span><span class="o">.</span><span class="n">extend</span><span class="p">([</span><span class="n">value</span><span class="p">]</span> <span class="o">*</span>
+                                              <span class="nb">len</span><span class="p">(</span><span class="n">output_video_keys</span><span class="p">[</span><span class="n">value</span><span class="p">]))</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+            <span class="n">chain</span><span class="o">.</span><span class="n">from_iterable</span><span class="p">(</span>
+                <span class="p">[</span><span class="n">output_video_keys</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">]))</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html b/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html
new file mode 100644
index 000000000..337669bf6
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html
@@ -0,0 +1,215 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_tagging_from_audio_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_tagging_from_audio_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_tagging_from_audio_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">librosa</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span><span class="p">,</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">extract_audio_from_video</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">Mapper</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_tagging_from_audio_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoTaggingFromAudioMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoTaggingFromAudioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate video tags from audio streams extracted by video</span>
+<span class="sd">    using the Audio Spectrogram Transformer.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoTaggingFromAudioMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">hf_ast</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;MIT/ast-finetuned-audioset-10-10-0.4593&#39;</span><span class="p">,</span>
+                 <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">tag_field_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_audio_tags</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param hf_ast: path to the HF model to tag from audios.</span>
+<span class="sd">        :param trust_remote_code: whether to trust the remote code of HF models</span>
+<span class="sd">        :param tag_field_name: the field name to store the tags. It&#39;s</span>
+<span class="sd">            &quot;video_audio_tags&quot; in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;500MB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;torchaudio&#39;</span><span class="p">])</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
+                                       <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">hf_ast</span><span class="p">,</span>
+                                       <span class="n">trust_remote_code</span><span class="o">=</span><span class="n">trust_remote_code</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_model_sampling_rate</span> <span class="o">=</span> <span class="mi">16000</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_no_audio_label</span> <span class="o">=</span> <span class="s1">&#39;EMPTY&#39;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="o">=</span> <span class="n">tag_field_name</span></div>
+
+
+<div class="viewcode-block" id="VideoTaggingFromAudioMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([],</span>
+                                                                <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load video paths</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">feature_extractor</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span>
+                                             <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">video_audio_tags</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">video_path</span> <span class="ow">in</span> <span class="n">loaded_video_keys</span><span class="p">:</span>
+            <span class="c1"># only extract audio data and sr for index 0 for now</span>
+            <span class="n">ys</span><span class="p">,</span> <span class="n">srs</span><span class="p">,</span> <span class="n">valid_indexes</span> <span class="o">=</span> <span class="n">extract_audio_from_video</span><span class="p">(</span>
+                <span class="n">video_path</span><span class="p">,</span> <span class="n">stream_indexes</span><span class="o">=</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_indexes</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="c1"># there is no valid audio streams. Skip!</span>
+                <span class="n">video_audio_tags</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_no_audio_label</span><span class="p">)</span>
+                <span class="k">continue</span>
+
+            <span class="c1"># inference</span>
+            <span class="n">y</span> <span class="o">=</span> <span class="n">ys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">sr</span> <span class="o">=</span> <span class="n">srs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="c1"># check if it meets the sampling rate condition of the model</span>
+            <span class="k">if</span> <span class="n">sr</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_model_sampling_rate</span><span class="p">:</span>
+                <span class="n">y</span> <span class="o">=</span> <span class="n">librosa</span><span class="o">.</span><span class="n">resample</span><span class="p">(</span><span class="n">y</span><span class="p">,</span>
+                                     <span class="n">orig_sr</span><span class="o">=</span><span class="n">sr</span><span class="p">,</span>
+                                     <span class="n">target_sr</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_model_sampling_rate</span><span class="p">)</span>
+                <span class="n">sr</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_model_sampling_rate</span>
+            <span class="n">inputs</span> <span class="o">=</span> <span class="n">feature_extractor</span><span class="p">(</span><span class="n">y</span><span class="p">,</span>
+                                       <span class="n">sampling_rate</span><span class="o">=</span><span class="n">sr</span><span class="p">,</span>
+                                       <span class="n">return_tensors</span><span class="o">=</span><span class="s1">&#39;pt&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="n">logits</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="o">**</span><span class="n">inputs</span><span class="p">)</span><span class="o">.</span><span class="n">logits</span>
+            <span class="n">predicted_tag_id</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">argmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+            <span class="n">predicted_tag</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">id2label</span><span class="p">[</span><span class="n">predicted_tag_id</span><span class="p">]</span>
+            <span class="n">video_audio_tags</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">predicted_tag</span><span class="p">)</span>
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">video_audio_tags</span><span class="p">,</span>
+                                                            <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html
new file mode 100644
index 000000000..23071f40d
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html
@@ -0,0 +1,239 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.video_tagging_from_frames_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.video_tagging_from_frames_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.video_tagging_from_frames_mapper</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">Counter</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">MetaKeys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.mm_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">close_video</span><span class="p">,</span> <span class="n">extract_key_frames</span><span class="p">,</span>
+                                        <span class="n">extract_video_frames_uniformly</span><span class="p">,</span>
+                                        <span class="n">load_data_with_context</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_model</span><span class="p">,</span> <span class="n">prepare_model</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">TAGGING_OPS</span><span class="p">,</span> <span class="n">UNFORKABLE</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..op_fusion</span><span class="w"> </span><span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
+
+<span class="n">ram</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ram&#39;</span><span class="p">,</span> <span class="s1">&#39;ram&#39;</span><span class="p">)</span>
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+
+<span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_tagging_from_frames_mapper&#39;</span>
+
+
+<div class="viewcode-block" id="VideoTaggingFromFramesMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">[docs]</a>
+<span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">VideoTaggingFromFramesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to generate video tags from frames extract by video.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+<div class="viewcode-block" id="VideoTaggingFromFramesMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
+                 <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
+                 <span class="n">tag_field_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">MetaKeys</span><span class="o">.</span><span class="n">video_frame_tags</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param frame_sampling_method: sampling method of extracting frame</span>
+<span class="sd">            images from the videos. Should be one of</span>
+<span class="sd">            [&quot;all_keyframes&quot;, &quot;uniform&quot;].</span>
+<span class="sd">            The former one extracts all key frames (the number of which depends</span>
+<span class="sd">            on the duration of the video) and the latter one extract specified</span>
+<span class="sd">            number of frames uniformly from the video.</span>
+<span class="sd">            Default: &quot;all_keyframes&quot;.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            the video. Only works when frame_sampling_method is &quot;uniform&quot;. If</span>
+<span class="sd">            it&#39;s 1, only the middle frame will be extracted. If it&#39;s 2, only</span>
+<span class="sd">            the first and the last frames will be extracted. If it&#39;s larger</span>
+<span class="sd">            than 2, in addition to the first and the last frames, other frames</span>
+<span class="sd">            will be extracted uniformly within the video duration.</span>
+<span class="sd">        :param tag_field_name: the field name to store the tags. It&#39;s</span>
+<span class="sd">            &quot;video_frame_tags&quot; in default.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">kwargs</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;mem_required&#39;</span><span class="p">,</span> <span class="s1">&#39;9GB&#39;</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">frame_sampling_method</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span> <span class="s1">&#39;uniform&#39;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Frame sampling method [</span><span class="si">{</span><span class="n">frame_sampling_method</span><span class="si">}</span><span class="s1">] is not &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;supported. Can only be one of [&quot;all_keyframes&quot;, &quot;uniform&quot;].&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
+            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;recognizeAnything&#39;</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+            <span class="n">input_size</span><span class="o">=</span><span class="mi">384</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">=</span> <span class="n">frame_sampling_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span> <span class="o">=</span> <span class="n">frame_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">transform</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">get_transform</span><span class="p">(</span><span class="n">image_size</span><span class="o">=</span><span class="mi">384</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="o">=</span> <span class="n">tag_field_name</span></div>
+
+
+<div class="viewcode-block" id="VideoTaggingFromFramesMapper.process_single">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+        <span class="c1"># check if it&#39;s generated already</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># there is no video in this sample</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
+            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([[]],</span>
+                                                                <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">sample</span>
+
+        <span class="c1"># load videos</span>
+        <span class="n">loaded_video_keys</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]</span>
+        <span class="n">sample</span><span class="p">,</span> <span class="n">videos</span> <span class="o">=</span> <span class="n">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span>
+                                                <span class="n">loaded_video_keys</span><span class="p">,</span> <span class="n">load_video</span><span class="p">)</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">video_tags</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">loaded_video_keys</span><span class="p">):</span>
+            <span class="n">video</span> <span class="o">=</span> <span class="n">videos</span><span class="p">[</span><span class="n">value</span><span class="p">]</span>
+
+            <span class="c1"># extract frame images</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">:</span>
+                <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">video</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_sampling_method</span> <span class="o">==</span> <span class="s1">&#39;uniform&#39;</span><span class="p">:</span>
+                <span class="n">frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span><span class="n">video</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_num</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">video_tags</span><span class="o">.</span><span class="n">append</span><span class="p">([])</span>
+                <span class="k">continue</span>
+
+            <span class="n">frame_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">transform</span><span class="p">(</span><span class="n">frame</span><span class="o">.</span><span class="n">to_image</span><span class="p">())</span> <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">frames</span>
+            <span class="p">])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="nb">next</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">())</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="n">tags</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate_tag</span><span class="p">(</span><span class="n">frame_tensor</span><span class="p">)</span>
+
+            <span class="n">words</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">tag</span> <span class="ow">in</span> <span class="n">tags</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">tag</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;|&#39;</span><span class="p">)]</span>
+            <span class="n">word_count</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
+            <span class="n">sorted_word_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span> <span class="k">for</span> <span class="n">item</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">word_count</span><span class="o">.</span><span class="n">most_common</span><span class="p">()]</span>
+            <span class="n">video_tags</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">sorted_word_list</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">str_</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">context</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">vid_key</span> <span class="ow">in</span> <span class="n">videos</span><span class="p">:</span>
+                <span class="n">close_video</span><span class="p">(</span><span class="n">videos</span><span class="p">[</span><span class="n">vid_key</span><span class="p">])</span>
+
+        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">video_tags</span>
+        <span class="k">return</span> <span class="n">sample</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
new file mode 100644
index 000000000..7a9ce4b8c
--- /dev/null
+++ b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
@@ -0,0 +1,159 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.mapper.whitespace_normalization_mapper &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper.whitespace_normalization_mapper</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Most of the code here has been modified from:</span>
+<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">..common.special_characters</span><span class="w"> </span><span class="kn">import</span> <span class="n">VARIOUS_WHITESPACES</span>
+
+
+<div class="viewcode-block" id="WhitespaceNormalizationMapper">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;whitespace_normalization_mapper&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">WhitespaceNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Mapper to normalize different kinds of whitespaces to whitespace &#39; &#39; (0x20)</span>
+<span class="sd">    in text samples.</span>
+
+<span class="sd">    Different kinds of whitespaces can be found here:</span>
+<span class="sd">    https://en.wikipedia.org/wiki/Whitespace_character</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="WhitespaceNormalizationMapper.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="WhitespaceNormalizationMapper.process_batched">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
+            <span class="c1"># remove whitespaces before and after the main content</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+
+            <span class="c1"># replace all kinds of whitespaces with &#39; &#39;</span>
+            <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span>
+                <span class="n">char</span> <span class="k">if</span> <span class="n">char</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">VARIOUS_WHITESPACES</span> <span class="k">else</span> <span class="s1">&#39; &#39;</span>
+                <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">text</span>
+            <span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">samples</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/op_fusion.html b/_modules/data_juicer/ops/op_fusion.html
new file mode 100644
index 000000000..aaaf2ee41
--- /dev/null
+++ b/_modules/data_juicer/ops/op_fusion.html
@@ -0,0 +1,332 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.op_fusion &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.op_fusion</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.op_fusion</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.registry</span><span class="w"> </span><span class="kn">import</span> <span class="n">Registry</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">.base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">Filter</span>
+
+<span class="c1"># Type of intermediate vars</span>
+<span class="c1"># text</span>
+<span class="n">INTER_LINES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="p">)</span>
+<span class="n">INTER_WORDS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="p">)</span>
+
+<span class="c1"># images</span>
+<span class="n">LOADED_IMAGES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_images</span><span class="p">)</span>
+
+<span class="c1"># audios</span>
+<span class="n">LOADED_AUDIOS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_audios</span><span class="p">)</span>
+
+<span class="c1"># videos</span>
+<span class="n">LOADED_VIDEOS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_videos</span><span class="p">)</span>
+<span class="n">INTER_SAMPLED_FRAMES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">sampled_frames</span><span class="p">)</span>
+
+<span class="c1"># all</span>
+<span class="n">ALL_INTER_VARS</span> <span class="o">=</span> <span class="p">[</span>
+    <span class="n">INTER_LINES</span><span class="p">,</span> <span class="n">INTER_WORDS</span><span class="p">,</span> <span class="n">LOADED_IMAGES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span><span class="p">,</span>
+    <span class="n">INTER_SAMPLED_FRAMES</span>
+<span class="p">]</span>
+
+<span class="c1"># supported fusion strategies</span>
+<span class="n">FUSION_STRATEGIES</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;greedy&#39;</span><span class="p">,</span> <span class="s1">&#39;probe&#39;</span><span class="p">}</span>
+
+
+<div class="viewcode-block" id="fuse_operators">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">fuse_operators</span><span class="p">(</span><span class="n">ops</span><span class="p">,</span> <span class="n">probe_res</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Fuse the input ops list and return the fused ops list.</span>
+
+<span class="sd">    :param ops: the corresponding list of op objects.</span>
+<span class="sd">    :param probe_res: the probed speed for each OP from Monitor.</span>
+<span class="sd">    :return: a list of fused op objects.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">probe_res</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">probe_res</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ops</span><span class="p">))]</span>
+    <span class="c1"># detect filter groups and try to fuse them</span>
+    <span class="n">fused_ops</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">filter_group</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">in_group</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">op_probe</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">ops</span><span class="p">,</span> <span class="n">probe_res</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Filter</span><span class="p">):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">in_group</span><span class="p">:</span>
+                <span class="n">in_group</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">filter_group</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">op</span><span class="p">,</span> <span class="n">op_probe</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="n">in_group</span><span class="p">:</span>
+            <span class="c1"># got a filter group, try to fuse them</span>
+            <span class="n">fused_group</span> <span class="o">=</span> <span class="n">fuse_filter_group</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">fused_group</span><span class="p">)</span>
+            <span class="n">filter_group</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">in_group</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="c1"># and add the current non-filter op into fused_ops</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>  <span class="c1"># not a filter and not in a filter group, skip</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">in_group</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># the final filter group, try to fuse them</span>
+        <span class="n">fused_group</span> <span class="o">=</span> <span class="n">fuse_filter_group</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span>
+        <span class="n">fused_ops</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">fused_group</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">fused_ops</span></div>
+
+
+
+<div class="viewcode-block" id="fuse_filter_group">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">fuse_filter_group</span><span class="p">(</span><span class="n">original_filter_group</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Fuse single filter group and return the fused filter group.</span>
+
+<span class="sd">    :param original_filter_group: the original filter group, including op</span>
+<span class="sd">        definitions and objects.</span>
+<span class="sd">    :return: the fused definitions and objects of the input filter group.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">fused_group</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">group_speed</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">all_intermediate_vars</span> <span class="o">=</span> <span class="n">ALL_INTER_VARS</span>
+    <span class="n">all_fused_filters</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">inter_vars</span><span class="p">:</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span>
+    <span class="p">}</span>
+    <span class="c1"># group these filters by their intermediate vars</span>
+    <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">probe_res</span> <span class="ow">in</span> <span class="n">original_filter_group</span><span class="p">:</span>
+        <span class="n">op_name</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">_name</span>
+        <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="n">inter_vars</span><span class="o">.</span><span class="n">modules</span><span class="p">:</span>
+                <span class="n">all_fused_filters</span><span class="p">[</span><span class="n">inter_vars</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">op</span><span class="p">,</span> <span class="n">probe_res</span><span class="p">))</span>
+                <span class="k">break</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># first apply other filters to decrease the number of samples, so</span>
+            <span class="c1"># we add them into the fused_group list directly</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">probe_res</span> <span class="k">else</span> <span class="mi">0</span><span class="p">)</span>
+
+    <span class="c1"># try to fuse ops for each type of intermediate vars</span>
+    <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span><span class="p">:</span>
+        <span class="n">inter_vars_filter</span> <span class="o">=</span> <span class="n">all_fused_filters</span><span class="p">[</span><span class="n">inter_vars</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># no ops include this type of intermediate var</span>
+            <span class="k">pass</span>
+        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="c1"># more than 1 ops share the same intermediate var, try to fuse them</span>
+            <span class="n">ops</span><span class="p">,</span> <span class="n">probe_res_list</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">inter_vars_filter</span><span class="p">)</span>
+            <span class="c1"># new definition: new name and a definition list of fused op list</span>
+            <span class="n">fused_filter_name</span> <span class="o">=</span> <span class="s1">&#39;OpFusion:(</span><span class="si">%s</span><span class="s1">)&#39;</span> <span class="o">%</span> <span class="s1">&#39;,&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">ops</span><span class="p">])</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Ops are fused into one op &#39;</span>
+                        <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">fused_filter_name</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+            <span class="c1"># use these ops to create a FusedFilter object, and add the fused</span>
+            <span class="c1"># definition and op into the fused group</span>
+            <span class="n">fused_filter</span> <span class="o">=</span> <span class="n">FusedFilter</span><span class="p">(</span><span class="n">fused_filter_name</span><span class="p">,</span> <span class="n">ops</span><span class="p">)</span>
+            <span class="n">fused_filter</span><span class="o">.</span><span class="n">_op_cfg</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="n">fused_filter_name</span><span class="p">:</span> <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_op_cfg</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">ops</span><span class="p">]</span>
+            <span class="p">}</span>
+            <span class="n">fused_filter_speed</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">([</span>
+                <span class="mf">1.0</span> <span class="o">/</span> <span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">probe_res</span> <span class="ow">in</span> <span class="n">probe_res_list</span>
+                <span class="k">if</span> <span class="n">probe_res</span>
+            <span class="p">])</span>
+            <span class="k">if</span> <span class="n">fused_filter_speed</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">fused_filter_speed</span> <span class="o">=</span> <span class="mf">1.0</span> <span class="o">/</span> <span class="n">fused_filter_speed</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">fused_filter</span><span class="p">)</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">fused_filter_speed</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># only 1 op for this type of intermediate var, add it to the fused</span>
+            <span class="c1"># group directly without fusion</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">0</span><span class="p">])</span>
+            <span class="n">probe_res</span> <span class="o">=</span> <span class="n">inter_vars_filter</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">probe_res</span> <span class="k">else</span> <span class="mi">0</span><span class="p">)</span>
+
+    <span class="c1"># reorder according to the probed speed results in group_speed</span>
+    <span class="c1"># &#39;greedy&#39;: all speed data in group_speed will be 0, which will keep the</span>
+    <span class="c1">#   current order of fused group</span>
+    <span class="c1"># &#39;probe&#39;: OPs in fused group will be reordered according to the speed data</span>
+    <span class="c1">#   in group_speed in descending order</span>
+    <span class="n">fused_group</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">op</span> <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">sorted</span><span class="p">(</span>
+            <span class="nb">zip</span><span class="p">(</span><span class="n">fused_group</span><span class="p">,</span> <span class="n">group_speed</span><span class="p">),</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">it</span><span class="p">:</span> <span class="n">it</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="p">]</span>
+
+    <span class="k">return</span> <span class="n">fused_group</span></div>
+
+
+
+<div class="viewcode-block" id="FusedFilter">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">FusedFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;A fused operator for filters.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="FusedFilter.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fused_filters</span><span class="p">:</span> <span class="n">List</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param fused_filters: a list of filters to be fused.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span> <span class="o">=</span> <span class="n">fused_filters</span>
+        <span class="c1"># set accelerator to &#39;cuda&#39; if there exists any ops whose accelerator</span>
+        <span class="c1"># is &#39;cuda&#39;</span>
+        <span class="n">accelerator_methods</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">accelerator</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">])</span>
+        <span class="k">if</span> <span class="s1">&#39;cuda&#39;</span> <span class="ow">in</span> <span class="n">accelerator_methods</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+        <span class="c1"># update num_proc with the min num_proc of all fusible filters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">([</span><span class="n">op</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">()</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">])</span></div>
+
+
+<div class="viewcode-block" id="FusedFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="kn">import</span><span class="w"> </span><span class="nn">av</span>
+
+        <span class="c1"># context for the intermediate vars</span>
+        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]</span> <span class="o">=</span> <span class="p">[{}</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">)]</span>
+        <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">:</span>
+            <span class="c1"># open the context for these fused ops</span>
+            <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">==</span> <span class="s1">&#39;cuda&#39;</span><span class="p">:</span>
+                <span class="n">samples</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">compute_stats_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span>
+                                                   <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                                   <span class="n">context</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">samples</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">compute_stats_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># clean up the contexts after processing</span>
+        <span class="c1"># check if there are containers that need to be closed</span>
+        <span class="k">for</span> <span class="n">ctx</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="k">for</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">ctx</span><span class="p">:</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">],</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+                    <span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">]</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+                    <span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">]</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+        <span class="n">_</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="FusedFilter.process_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># Only return True when all filters return True</span>
+        <span class="n">res</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">:</span>
+            <span class="n">this_res</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">process_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">)))</span>
+            <span class="k">if</span> <span class="n">res</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">res</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">logical_and</span><span class="p">(</span><span class="n">res</span><span class="p">,</span> <span class="n">this_res</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">res</span> <span class="o">=</span> <span class="n">this_res</span>
+        <span class="k">return</span> <span class="n">res</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
new file mode 100644
index 000000000..a45b4d4ea
--- /dev/null
+++ b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
@@ -0,0 +1,208 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.selector.frequency_specified_field_selector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector.frequency_specified_field_selector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numbers</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
+
+
+<div class="viewcode-block" id="FrequencySpecifiedFieldSelector">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;frequency_specified_field_selector&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">FrequencySpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select samples based on the sorted frequency of specified</span>
+<span class="sd">    field.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="FrequencySpecifiedFieldSelector.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">top_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
+                                               <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">topk</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">reverse</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Selector based on the specified value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param top_ratio: Ratio of selected top specified field value,</span>
+<span class="sd">            samples will be selected if their specified field values are</span>
+<span class="sd">            within this parameter. When both topk and top_ratio are set,</span>
+<span class="sd">            the value corresponding to the smaller number of samples</span>
+<span class="sd">            will be applied.</span>
+<span class="sd">        :param topk: Number of selected top specified field value,</span>
+<span class="sd">            samples will be selected if their specified field values are</span>
+<span class="sd">            within this parameter. When both topk and top_ratio are set,</span>
+<span class="sd">            the value corresponding to the smaller number of samples</span>
+<span class="sd">            will be applied.</span>
+<span class="sd">        :param reverse: Determine the sorting rule, if reverse=True,</span>
+<span class="sd">            then sort in descending order.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span></div>
+
+
+<div class="viewcode-block" id="FrequencySpecifiedFieldSelector.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+
+        <span class="n">field_value_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">item</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]):</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
+                <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                    <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+            <span class="k">assert</span> <span class="n">field_value</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                <span class="n">field_value</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="n">field_value</span><span class="p">,</span> <span class="n">numbers</span><span class="o">.</span><span class="n">Number</span>
+                <span class="p">),</span> <span class="s1">&#39;The </span><span class="si">{}</span><span class="s1"> item is not String, Numbers or NoneType&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">field_value</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">field_value_dict</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+                <span class="n">field_value_dict</span><span class="p">[</span><span class="n">field_value</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">field_value_dict</span><span class="p">[</span><span class="n">field_value</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+
+        <span class="n">select_num</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">dataset</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">field_value_dict</span><span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">&lt;</span> <span class="n">select_num</span><span class="p">:</span>
+                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
+
+        <span class="n">select_index</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+            <span class="nb">sorted</span><span class="p">(</span><span class="n">field_value_dict</span><span class="o">.</span><span class="n">values</span><span class="p">(),</span>
+                   <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                   <span class="n">reverse</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">)[:</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">)],</span> <span class="p">[])</span>
+        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/random_selector.html b/_modules/data_juicer/ops/selector/random_selector.html
new file mode 100644
index 000000000..64d9a5055
--- /dev/null
+++ b/_modules/data_juicer/ops/selector/random_selector.html
@@ -0,0 +1,171 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.selector.random_selector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector.random_selector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.selector.random_selector</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.format.mixture_formatter</span><span class="w"> </span><span class="kn">import</span> <span class="n">MixtureFormatter</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
+
+
+<div class="viewcode-block" id="RandomSelector">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;random_selector&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RandomSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to random select samples. &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RandomSelector.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">select_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
+                                                  <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">select_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param select_ratio: The ratio to select. When both</span>
+<span class="sd">            select_ratio and select_num are set, the value corresponding</span>
+<span class="sd">            to the smaller number of samples will be applied.</span>
+<span class="sd">        :param select_num: The number of samples to select. When both</span>
+<span class="sd">            select_ratio and select_num are set, the value corresponding</span>
+<span class="sd">            to the smaller number of samples will be applied.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">select_ratio</span> <span class="o">=</span> <span class="n">select_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span> <span class="o">=</span> <span class="n">select_num</span></div>
+
+
+<div class="viewcode-block" id="RandomSelector.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_ratio</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">select_num</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_ratio</span><span class="p">:</span>
+            <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">select_num</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">select_ratio</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span> <span class="o">&lt;</span> <span class="n">select_num</span><span class="p">:</span>
+                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">select_num</span>
+
+        <span class="k">return</span> <span class="n">MixtureFormatter</span><span class="o">.</span><span class="n">random_sample</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span>
+                                              <span class="n">sample_number</span><span class="o">=</span><span class="n">select_num</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/range_specified_field_selector.html b/_modules/data_juicer/ops/selector/range_specified_field_selector.html
new file mode 100644
index 000000000..edf49aa91
--- /dev/null
+++ b/_modules/data_juicer/ops/selector/range_specified_field_selector.html
@@ -0,0 +1,232 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.selector.range_specified_field_selector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector.range_specified_field_selector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.selector.range_specified_field_selector</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">heapq</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">stats_to_number</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
+
+
+<div class="viewcode-block" id="RangeSpecifiedFieldSelector">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;range_specified_field_selector&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">RangeSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select a range of samples based on the sorted</span>
+<span class="sd">    specified field value from smallest to largest. &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RangeSpecifiedFieldSelector.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+            <span class="n">lower_percentile</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
+                                                 <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">upper_percentile</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
+                                                 <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">lower_rank</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">upper_rank</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Selector based on the specified value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param lower_percentile: The lower bound of the percentile to</span>
+<span class="sd">            be sample, samples will be selected if their specified field</span>
+<span class="sd">            values are greater than this lower bound. When both</span>
+<span class="sd">            lower_percentile and lower_rank are set, the value corresponding</span>
+<span class="sd">            to the larger number of samples will be applied.</span>
+<span class="sd">        :param upper_percentile: The upper bound of the percentile to</span>
+<span class="sd">            be sample, samples will be selected if their specified field</span>
+<span class="sd">            values are less or equal to the upper bound. When both</span>
+<span class="sd">            upper_percentile and upper_rank are set, the value corresponding</span>
+<span class="sd">            to the smaller number of samples will be applied.</span>
+<span class="sd">        :param lower_rank: The lower bound of the rank to be sample,</span>
+<span class="sd">            samples will be selected if their specified field values are</span>
+<span class="sd">            greater than this lower bound. When both lower_percentile and</span>
+<span class="sd">            lower_rank are set, the value corresponding to the larger number</span>
+<span class="sd">            of samples will be applied.</span>
+<span class="sd">        :param upper_rank: The upper bound of the rank to be sample,</span>
+<span class="sd">            samples will be selected if their specified field values are</span>
+<span class="sd">            less or equal to the upper bound. When both upper_percentile and</span>
+<span class="sd">            upper_rank are set, the value corresponding to the smaller number</span>
+<span class="sd">            of samples will be applied.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lower_percentile</span> <span class="o">=</span> <span class="n">lower_percentile</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">upper_percentile</span> <span class="o">=</span> <span class="n">upper_percentile</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lower_rank</span> <span class="o">=</span> <span class="n">lower_rank</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">upper_rank</span> <span class="o">=</span> <span class="n">upper_rank</span></div>
+
+
+<div class="viewcode-block" id="RangeSpecifiedFieldSelector.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lower_percentile</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">lower_rank</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">upper_percentile</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">upper_rank</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">lower_bound</span><span class="p">,</span> <span class="n">upper_bound</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lower_percentile</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lower_bound</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">lower_percentile</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lower_rank</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lower_bound</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">lower_bound</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">lower_rank</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">upper_percentile</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">upper_bound</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">upper_percentile</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">upper_rank</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">upper_bound</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">upper_bound</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">upper_rank</span><span class="p">)</span>
+        <span class="n">upper_bound</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">lower_bound</span><span class="p">,</span> <span class="n">upper_bound</span><span class="p">)</span>
+
+        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">get_field_value_list</span><span class="p">(</span><span class="n">cur_dataset</span><span class="p">,</span> <span class="n">field_keys</span><span class="p">):</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">field_keys</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="n">field_value_list</span> <span class="o">=</span> <span class="n">cur_dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">field_value_list</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">cur_dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]:</span>
+                    <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
+                        <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+                        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                        <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+                    <span class="n">field_value_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">field_value</span><span class="p">)</span>
+            <span class="n">field_value_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">stats_to_number</span><span class="p">(</span><span class="n">s</span><span class="p">)</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">field_value_list</span><span class="p">]</span>
+            <span class="k">return</span> <span class="n">field_value_list</span>
+
+        <span class="n">field_value_list</span> <span class="o">=</span> <span class="n">get_field_value_list</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">field_keys</span><span class="p">)</span>
+        <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nsmallest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">upper_bound</span><span class="p">),</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)),</span>
+                                       <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+        <span class="n">sub_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span>
+
+        <span class="n">field_value_list</span> <span class="o">=</span> <span class="n">get_field_value_list</span><span class="p">(</span><span class="n">sub_dataset</span><span class="p">,</span> <span class="n">field_keys</span><span class="p">)</span>
+        <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nlargest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">upper_bound</span> <span class="o">-</span> <span class="n">lower_bound</span><span class="p">),</span>
+                                      <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">sub_dataset</span><span class="p">)),</span>
+                                      <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">sub_dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/tags_specified_field_selector.html b/_modules/data_juicer/ops/selector/tags_specified_field_selector.html
new file mode 100644
index 000000000..52e1a14b4
--- /dev/null
+++ b/_modules/data_juicer/ops/selector/tags_specified_field_selector.html
@@ -0,0 +1,172 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.selector.tags_specified_field_selector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector.tags_specified_field_selector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.selector.tags_specified_field_selector</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">numbers</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
+
+
+<div class="viewcode-block" id="TagsSpecifiedFieldSelector">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;tags_specified_field_selector&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TagsSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select samples based on the tags of specified</span>
+<span class="sd">    field.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TagsSpecifiedFieldSelector.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">target_tags</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Selector based on the specified value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param target_tags: Target tags to be select.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target_tags</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">target_tags</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TagsSpecifiedFieldSelector.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+
+        <span class="n">selected_index</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">item</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]):</span>
+            <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
+                <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                    <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+            <span class="k">assert</span> <span class="n">field_value</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                <span class="n">field_value</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="n">field_value</span><span class="p">,</span> <span class="n">numbers</span><span class="o">.</span><span class="n">Number</span>
+                <span class="p">),</span> <span class="s1">&#39;The </span><span class="si">{}</span><span class="s1"> item is not String, Numbers or NoneType&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">field_value</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_tags</span><span class="p">:</span>
+                <span class="n">selected_index</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">selected_index</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
new file mode 100644
index 000000000..a8f852b1a
--- /dev/null
+++ b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
@@ -0,0 +1,210 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.selector.topk_specified_field_selector &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector.topk_specified_field_selector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">heapq</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">Field</span><span class="p">,</span> <span class="n">PositiveInt</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing_extensions</span><span class="w"> </span><span class="kn">import</span> <span class="n">Annotated</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">stats_to_number</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">..base_op</span><span class="w"> </span><span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
+
+
+<div class="viewcode-block" id="TopkSpecifiedFieldSelector">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">[docs]</a>
+<span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;topk_specified_field_selector&#39;</span><span class="p">)</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">TopkSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select top samples based on the sorted specified field</span>
+<span class="sd">    value.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TopkSpecifiedFieldSelector.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+                 <span class="n">top_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
+                                               <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">topk</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">reverse</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param field_key: Selector based on the specified value</span>
+<span class="sd">            corresponding to the target key. The target key</span>
+<span class="sd">            corresponding to multi-level field information need to be</span>
+<span class="sd">            separated by &#39;.&#39;.</span>
+<span class="sd">        :param top_ratio: Ratio of selected top samples, samples will be</span>
+<span class="sd">            selected if their specified field values are within this</span>
+<span class="sd">            parameter. When both topk and top_ratio are set, the value</span>
+<span class="sd">            corresponding to the smaller number of samples will be</span>
+<span class="sd">            applied.</span>
+<span class="sd">        :param topk: Number of selected top sample, samples will be</span>
+<span class="sd">            selected if their specified field values are within this</span>
+<span class="sd">            parameter. When both topk and top_ratio are set, the value</span>
+<span class="sd">            corresponding to the smaller number of samples will be</span>
+<span class="sd">            applied.</span>
+<span class="sd">        :param reverse: Determine the sorting rule, if reverse=True,</span>
+<span class="sd">            then sort in descending order.</span>
+<span class="sd">        :param args: extra args</span>
+<span class="sd">        :param kwargs: extra args</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span></div>
+
+
+<div class="viewcode-block" id="TopkSpecifiedFieldSelector.process">
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">dataset</span>
+
+        <span class="n">select_num</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">dataset</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">&lt;</span> <span class="n">select_num</span><span class="p">:</span>
+                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
+
+        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">field_keys</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">field_value_list</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">field_value_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]:</span>
+                <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
+                    <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                        <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                    <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+                <span class="n">field_value_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">stats_to_number</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">:</span>
+            <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nlargest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">),</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)),</span>
+                                          <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nsmallest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">),</span>
+                                           <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)),</span>
+                                           <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/asset_utils.html b/_modules/data_juicer/utils/asset_utils.html
new file mode 100644
index 000000000..1e7fc469b
--- /dev/null
+++ b/_modules/data_juicer/utils/asset_utils.html
@@ -0,0 +1,170 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.asset_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.asset_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.asset_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">json</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">requests</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">.cache_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
+
+<span class="c1"># Default directory to store auxiliary resources</span>
+<span class="n">ASSET_DIR</span> <span class="o">=</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
+
+<span class="c1"># Default cached assets links for downloading</span>
+<span class="n">ASSET_LINKS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;flagged_words&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/flagged_words.json&#39;</span><span class="p">,</span>
+    <span class="s1">&#39;stopwords&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/stopwords.json&#39;</span><span class="p">,</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="load_words_asset">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">words_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Load words from a asset file named `words_type`, if not find a valid asset</span>
+<span class="sd">    file, then download it from ASSET_LINKS cached by data_juicer team.</span>
+
+<span class="sd">    :param words_dir: directory that stores asset file(s)</span>
+<span class="sd">    :param words_type: name of target words assets</span>
+<span class="sd">    :return: a dict that stores words assets, whose keys are language</span>
+<span class="sd">        names, and the values are lists of words</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">words_dict</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># try to load words from `words_type` file</span>
+    <span class="k">for</span> <span class="n">filename</span> <span class="ow">in</span> <span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">words_dir</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">filename</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.json&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">words_type</span> <span class="ow">in</span> <span class="n">filename</span><span class="p">:</span>
+            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">),</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
+                <span class="n">loaded_words</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_words</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">words_dict</span><span class="p">:</span>
+                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">+=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+    <span class="c1"># if the asset file is not found, then download it from ASSET_LINKS</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">bool</span><span class="p">(</span><span class="n">words_dict</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Specified </span><span class="si">{</span><span class="n">words_dir</span><span class="si">}</span><span class="s1"> does not contain &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;any </span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1"> files in json format, now &#39;</span>
+                    <span class="s1">&#39;download the one cached by data_juicer team&#39;</span><span class="p">)</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ASSET_LINKS</span><span class="p">[</span><span class="n">words_type</span><span class="p">])</span>
+        <span class="n">words_dict</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
+        <span class="c1"># cache the asset file locally</span>
+        <span class="n">cache_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1">.json&#39;</span><span class="p">)</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">cache_path</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
+            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">words_dict</span><span class="p">,</span> <span class="n">file</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">words_dict</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/auto_install_utils.html b/_modules/data_juicer/utils/auto_install_utils.html
new file mode 100644
index 000000000..c783b2446
--- /dev/null
+++ b/_modules/data_juicer/utils/auto_install_utils.html
@@ -0,0 +1,221 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.auto_install_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.auto_install_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.auto_install_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">subprocess</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.auto_install_mapping</span><span class="w"> </span><span class="kn">import</span> <span class="n">MODULE_TO_PKGS</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.availability_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">_torch_check_and_set</span>
+
+
+<span class="k">def</span><span class="w"> </span><span class="nf">_is_module_installed</span><span class="p">(</span><span class="n">module_name</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="n">MODULE_TO_PKGS</span><span class="p">:</span>
+        <span class="n">pkgs</span> <span class="o">=</span> <span class="n">MODULE_TO_PKGS</span><span class="p">[</span><span class="n">module_name</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">pkgs</span> <span class="o">=</span> <span class="p">[</span><span class="n">module_name</span><span class="p">]</span>
+    <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">pkgs</span><span class="p">:</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">_is_package_installed</span><span class="p">(</span><span class="n">pkg</span><span class="p">):</span>
+            <span class="k">return</span> <span class="kc">False</span>
+    <span class="k">return</span> <span class="kc">True</span>
+
+
+<span class="k">def</span><span class="w"> </span><span class="nf">_is_package_installed</span><span class="p">(</span><span class="n">package_name</span><span class="p">):</span>
+    <span class="k">if</span> <span class="s1">&#39;@&#39;</span> <span class="ow">in</span> <span class="n">package_name</span><span class="p">:</span>
+        <span class="n">package_name</span> <span class="o">=</span> <span class="n">package_name</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;@&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">if</span> <span class="s1">&#39;[&#39;</span> <span class="ow">in</span> <span class="n">package_name</span><span class="p">:</span>
+        <span class="n">package_name</span> <span class="o">=</span> <span class="n">package_name</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;[&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;show&#39;</span><span class="p">,</span> <span class="s1">&#39;-q&#39;</span><span class="p">,</span> <span class="n">package_name</span><span class="p">],</span>
+            <span class="n">stderr</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">STDOUT</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+    <span class="k">except</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">CalledProcessError</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="AutoInstaller">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">AutoInstaller</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to install the required</span>
+<span class="sd">    package automatically.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AutoInstaller.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">require_f_paths</span><span class="o">=</span><span class="p">[]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param require_f_paths: paths to the file for version limitation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">,</span> <span class="n">reqs</span> <span class="o">=</span> <span class="p">{},</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">require_f_paths</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;target file does not exist: </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">,</span> <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
+                    <span class="n">reqs</span> <span class="o">+=</span> <span class="p">[</span><span class="n">x</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">fin</span><span class="o">.</span><span class="n">read</span><span class="p">()</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()]</span>
+        <span class="k">for</span> <span class="n">req</span> <span class="ow">in</span> <span class="n">reqs</span><span class="p">:</span>
+            <span class="n">clean_req</span> <span class="o">=</span> <span class="n">req</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="s1">&#39;=&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">clean_req</span><span class="p">]</span> <span class="o">=</span> <span class="n">req</span></div>
+
+
+<div class="viewcode-block" id="AutoInstaller.check">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">check</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">check_pkgs</span><span class="p">,</span> <span class="n">param</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        install if the package is not installed.</span>
+
+<span class="sd">        :param check_pkgs: packages to be check, install them if they are</span>
+<span class="sd">            not installed</span>
+<span class="sd">        :param param: install param for pip if necessary</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">check_pkgs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">_is_package_installed</span><span class="p">(</span><span class="n">pkg</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Installing </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> ...&#39;</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">:</span>
+                    <span class="n">pkg</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">pkg</span><span class="p">]</span>
+                <span class="c1"># not install the dependency of this pkg</span>
+                <span class="k">if</span> <span class="n">param</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">pkg</span><span class="p">]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">param</span><span class="p">,</span> <span class="n">pkg</span>
+                    <span class="p">]</span>
+                <span class="n">subprocess</span><span class="o">.</span><span class="n">check_call</span><span class="p">(</span><span class="n">pip_cmd</span><span class="p">)</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> installed.&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">pkg</span> <span class="o">==</span> <span class="s1">&#39;torch&#39;</span><span class="p">:</span>
+                <span class="n">_torch_check_and_set</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="AutoInstaller.install">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">install</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        install package for given module.</span>
+
+<span class="sd">        :param module: module to be installed</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">module</span> <span class="ow">in</span> <span class="n">MODULE_TO_PKGS</span><span class="p">:</span>
+            <span class="n">pkgs</span> <span class="o">=</span> <span class="n">MODULE_TO_PKGS</span><span class="p">[</span><span class="n">module</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">pkgs</span> <span class="o">=</span> <span class="p">[</span><span class="n">module</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">pkgs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">:</span>
+                <span class="n">pkg</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">pkg</span><span class="p">]</span>
+            <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">pkg</span><span class="p">]</span>
+            <span class="n">subprocess</span><span class="o">.</span><span class="n">check_call</span><span class="p">(</span><span class="n">pip_cmd</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> installed.&#39;</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/cache_utils.html b/_modules/data_juicer/utils/cache_utils.html
new file mode 100644
index 000000000..9b40d2ee9
--- /dev/null
+++ b/_modules/data_juicer/utils/cache_utils.html
@@ -0,0 +1,188 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.cache_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.cache_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.cache_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">functools</span><span class="w"> </span><span class="kn">import</span> <span class="n">wraps</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets</span><span class="w"> </span><span class="kn">import</span> <span class="n">disable_caching</span><span class="p">,</span> <span class="n">enable_caching</span><span class="p">,</span> <span class="n">is_caching_enabled</span>
+
+<span class="c1"># Default cache location</span>
+<span class="n">DEFAULT_CACHE_HOME</span> <span class="o">=</span> <span class="s1">&#39;~/.cache&#39;</span>
+<span class="n">CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;CACHE_HOME&#39;</span><span class="p">,</span> <span class="n">DEFAULT_CACHE_HOME</span><span class="p">)</span>
+
+<span class="c1"># Default data_juicer cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">CACHE_HOME</span><span class="p">,</span> <span class="s1">&#39;data_juicer&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">expanduser</span><span class="p">(</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_CACHE_HOME&#39;</span><span class="p">,</span> <span class="n">DEFAULT_DATA_JUICER_CACHE_HOME</span><span class="p">))</span>
+
+<span class="c1"># Default assets cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_ASSETS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DATA_JUICER_CACHE_HOME</span><span class="p">,</span>
+                                                <span class="s1">&#39;assets&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_ASSETS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_ASSETS_CACHE&#39;</span><span class="p">,</span>
+                                     <span class="n">DEFAULT_DATA_JUICER_ASSETS_CACHE</span><span class="p">)</span>
+<span class="c1"># Default models cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_MODELS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DATA_JUICER_CACHE_HOME</span><span class="p">,</span>
+                                                <span class="s1">&#39;models&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_MODELS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_MODELS_CACHE&#39;</span><span class="p">,</span>
+                                     <span class="n">DEFAULT_DATA_JUICER_MODELS_CACHE</span><span class="p">)</span>
+
+<span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="kc">None</span>
+
+
+<div class="viewcode-block" id="DatasetCacheControl">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">DatasetCacheControl</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that change the cache state temporarily.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DatasetCacheControl.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">on</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">on</span> <span class="o">=</span> <span class="n">on</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Record the original cache state and turn it to the target state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">previous_state</span> <span class="o">=</span> <span class="n">is_caching_enabled</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">on</span><span class="p">:</span>
+            <span class="n">enable_caching</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">disable_caching</span><span class="p">()</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Restore the original cache state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">previous_state</span><span class="p">:</span>
+            <span class="n">enable_caching</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">disable_caching</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="dataset_cache_control">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">dataset_cache_control</span><span class="p">(</span><span class="n">on</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A more easy-to-use decorator for functions that need to control the cache</span>
+<span class="sd">    state temporarily.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">dataset_cache_decorator</span><span class="p">(</span><span class="n">func</span><span class="p">):</span>
+
+        <span class="nd">@wraps</span><span class="p">(</span><span class="n">func</span><span class="p">)</span>
+        <span class="k">def</span><span class="w"> </span><span class="nf">wrapped_function</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+            <span class="k">with</span> <span class="n">DatasetCacheControl</span><span class="p">(</span><span class="n">on</span><span class="o">=</span><span class="n">on</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">func</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">wrapped_function</span>
+
+    <span class="k">return</span> <span class="n">dataset_cache_decorator</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/ckpt_utils.html b/_modules/data_juicer/utils/ckpt_utils.html
new file mode 100644
index 000000000..d19bdf9a8
--- /dev/null
+++ b/_modules/data_juicer/utils/ckpt_utils.html
@@ -0,0 +1,272 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.ckpt_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.ckpt_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.ckpt_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">json</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="CheckpointManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">CheckpointManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to save the latest version of dataset to checkpoint</span>
+<span class="sd">    directory or load it from checkpoint directory, a bit like cache management</span>
+<span class="sd">    Rerun the same config will reload the checkpoint and skip ops before it.</span>
+
+<span class="sd">    If any args of operator in process list is changed, all ops will be</span>
+<span class="sd">    rerun from the beginning.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CheckpointManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">original_process_list</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param ckpt_dir: path to save and load checkpoint</span>
+<span class="sd">        :param original_process_list: process list in config</span>
+<span class="sd">        :param num_proc: number of process workers when saving dataset</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span> <span class="o">=</span> <span class="n">ckpt_dir</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;latest&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;ckpt_op.json&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="n">original_process_list</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_available</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ckpt</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.get_left_process_list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_left_process_list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get left process list of ops for processing dataset, when checkpoint is</span>
+<span class="sd">        available, remove some ops from process list, otherwise keep it</span>
+<span class="sd">        unchanged.</span>
+
+<span class="sd">        :return: process list of left ops</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.check_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">check_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Check if checkpoint is available.</span>
+
+<span class="sd">        :return: True when checkpoint is available, else False</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ops_to_skip</span><span class="p">():</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.record">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">record</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_cfg</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Save op name and args to op record, which is used to compare with</span>
+<span class="sd">        the process list from config to decide if a checkpoint is available.&quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op_cfg</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.check_ops_to_skip">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">check_ops_to_skip</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Check which ops need to be skipped in the process list.</span>
+
+<span class="sd">        If op record list from checkpoint are the same as the prefix</span>
+<span class="sd">        part of process list, then skip these ops and start processing</span>
+<span class="sd">        from the checkpoint. Otherwise, process the original dataset</span>
+<span class="sd">        from scratch.</span>
+
+<span class="sd">        :return: whether to skip some ops or not</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="c1"># load op records</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">fin</span><span class="p">)</span>
+
+        <span class="c1"># check whether the op records are exactly the same</span>
+        <span class="c1"># with prefix of process list</span>
+        <span class="c1"># 1. same: remove these ops from process list</span>
+        <span class="c1"># 2. different: cleanup op record, and keep process list unchanged</span>
+        <span class="n">recorded_op_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">)</span>
+        <span class="n">process_op_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">process_op_num</span> <span class="o">&lt;</span> <span class="n">recorded_op_num</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Current config ops (</span><span class="si">{</span><span class="n">process_op_num</span><span class="si">}</span><span class="s1">) are fewer than &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;checkpoint ops (</span><span class="si">{</span><span class="n">recorded_op_num</span><span class="si">}</span><span class="s1">). Cannot reuse checkpoint;&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39; all ops will be processed from the beginning.&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="kc">False</span>
+
+        <span class="n">prefix_process</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[:</span><span class="n">recorded_op_num</span><span class="p">]</span>
+        <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">prefix_process</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">record_op</span> <span class="o">!=</span> <span class="n">config_op</span><span class="p">:</span>
+                <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span>
+                <span class="k">break</span>
+        <span class="k">if</span> <span class="n">all_the_same</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">:</span>
+                <span class="n">op_name</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">keys</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Skip op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[</span><span class="n">recorded_op_num</span><span class="p">:]</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Processed ops of checkpoint are different from &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;current configs: checkpoint-</span><span class="si">{</span><span class="n">dif1</span><span class="si">}</span><span class="s1"> vs. config-&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dif2</span><span class="si">}</span><span class="s1">. All ops will be processed from the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;beginning.&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.save_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">save_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Save dataset to checkpoint directory and dump processed ops list.</span>
+
+<span class="sd">        :param ds: input dataset to save</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">left_sample_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span>
+        <span class="n">ds</span><span class="o">.</span><span class="n">save_to_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">,</span>
+                        <span class="n">num_proc</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">,</span> <span class="n">left_sample_num</span><span class="p">))</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fout</span><span class="p">:</span>
+            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">fout</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.load_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">load_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Load dataset from a checkpoint file.</span>
+
+<span class="sd">        :return: a dataset stored in checkpoint file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">NestedDataset</span>
+        <span class="n">ds</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="o">.</span><span class="n">load_from_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">ds</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/common_utils.html b/_modules/data_juicer/utils/common_utils.html
new file mode 100644
index 000000000..c6c2a48b8
--- /dev/null
+++ b/_modules/data_juicer/utils/common_utils.html
@@ -0,0 +1,254 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.common_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.common_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.common_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">hashlib</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="stats_to_number">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">stats_to_number</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&#39;&#39;&#39;</span>
+<span class="sd">        convert a stats value which can be string</span>
+<span class="sd">        of list to a float.</span>
+<span class="sd">    &#39;&#39;&#39;</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">s</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">s</span> <span class="o">==</span> <span class="p">[]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;empty value&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">s</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span>
+    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">reverse</span><span class="p">:</span>
+            <span class="k">return</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span></div>
+
+
+
+<div class="viewcode-block" id="dict_to_hash">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">dict_to_hash</span><span class="p">(</span><span class="n">input_dict</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="n">hash_length</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        hash a dict to a string with length hash_length</span>
+
+<span class="sd">        :param input_dict: the given dict</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">sorted_items</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">input_dict</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
+    <span class="n">dict_string</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">sorted_items</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">()</span>
+    <span class="n">hasher</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha256</span><span class="p">()</span>
+    <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">dict_string</span><span class="p">)</span>
+    <span class="n">hash_value</span> <span class="o">=</span> <span class="n">hasher</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">hash_length</span><span class="p">:</span>
+        <span class="n">hash_value</span> <span class="o">=</span> <span class="n">hash_value</span><span class="p">[:</span><span class="n">hash_length</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">hash_value</span></div>
+
+
+
+<div class="viewcode-block" id="nested_access">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.nested_access">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">nested_access</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">digit_allowed</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Access nested data using a dot-separated path.</span>
+
+<span class="sd">    :param data: A dictionary or a list to access the nested data from.</span>
+<span class="sd">    :param path: A dot-separated string representing the path to access.</span>
+<span class="sd">                    This can include numeric indices when accessing list</span>
+<span class="sd">                    elements.</span>
+<span class="sd">    :param digit_allowed: Allow transfering string to digit.</span>
+<span class="sd">    :return: The value located at the specified path, or raises a KeyError</span>
+<span class="sd">                or IndexError if the path does not exist.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">keys</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+        <span class="c1"># Convert string keys to integers if they are numeric</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">key</span><span class="p">)</span> <span class="k">if</span> <span class="n">key</span><span class="o">.</span><span class="n">isdigit</span><span class="p">()</span> <span class="ow">and</span> <span class="n">digit_allowed</span> <span class="k">else</span> <span class="n">key</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">data</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unaccessible dot-separated path: </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">!&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="n">data</span></div>
+
+
+
+<div class="viewcode-block" id="is_string_list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">is_string_list</span><span class="p">(</span><span class="n">var</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        return if the var is list of string.</span>
+
+<span class="sd">        :param var: input variance</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">var</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">it</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="k">for</span> <span class="n">it</span> <span class="ow">in</span> <span class="n">var</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="avg_split_string_list_under_limit">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">avg_split_string_list_under_limit</span><span class="p">(</span><span class="n">str_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span>
+                                      <span class="n">token_nums</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span>
+                                      <span class="n">max_token_num</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Split the string list to several sub str_list, such that the total</span>
+<span class="sd">        token num of each sub string list is less than max_token_num, keeping</span>
+<span class="sd">        the total token nums of sub string lists are similar.</span>
+
+<span class="sd">        :param str_list: input string list.</span>
+<span class="sd">        :param token_nums: token num of each string list.</span>
+<span class="sd">        :param max_token_num: max token num of each sub string list.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">max_token_num</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">str_list</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">token_nums</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;The length of str_list and token_nums must be equal!&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="n">total_num</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">token_nums</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">total_num</span> <span class="o">&lt;=</span> <span class="n">max_token_num</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="n">group_num</span> <span class="o">=</span> <span class="n">total_num</span> <span class="o">//</span> <span class="n">max_token_num</span> <span class="o">+</span> <span class="mi">1</span>
+    <span class="n">avg_num</span> <span class="o">=</span> <span class="n">total_num</span> <span class="o">/</span> <span class="n">group_num</span>
+    <span class="n">res</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="k">for</span> <span class="n">text</span><span class="p">,</span> <span class="n">token_num</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">str_list</span><span class="p">,</span> <span class="n">token_nums</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">token_num</span> <span class="o">&gt;</span> <span class="n">max_token_num</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Token num is greater than max_token_num in one sample!&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cur_sum</span> <span class="o">+</span> <span class="n">token_num</span> <span class="o">&gt;</span> <span class="n">max_token_num</span> <span class="ow">and</span> <span class="n">cur_list</span><span class="p">:</span>
+            <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+            <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">cur_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">cur_sum</span> <span class="o">+=</span> <span class="n">token_num</span>
+        <span class="k">if</span> <span class="n">cur_sum</span> <span class="o">&gt;</span> <span class="n">avg_num</span><span class="p">:</span>
+            <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+            <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="k">if</span> <span class="n">cur_list</span><span class="p">:</span>
+        <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">res</span></div>
+
+
+
+<div class="viewcode-block" id="is_float">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.is_float">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">is_float</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">False</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/compress.html b/_modules/data_juicer/utils/compress.html
new file mode 100644
index 000000000..c8091eaba
--- /dev/null
+++ b/_modules/data_juicer/utils/compress.html
@@ -0,0 +1,690 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.compress &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.compress</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">shutil</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">abc</span><span class="w"> </span><span class="kn">import</span> <span class="n">ABC</span><span class="p">,</span> <span class="n">abstractmethod</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">multiprocessing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Pool</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets</span><span class="w"> </span><span class="kn">import</span> <span class="n">Dataset</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets.utils.extract</span><span class="w"> </span><span class="kn">import</span> <span class="n">Extractor</span> <span class="k">as</span> <span class="n">HF_Extractor</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets.utils.filelock</span><span class="w"> </span><span class="kn">import</span> <span class="n">FileLock</span> <span class="k">as</span> <span class="n">HF_FileLock</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">cache_utils</span>
+
+
+<div class="viewcode-block" id="FileLock">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.FileLock">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">FileLock</span><span class="p">(</span><span class="n">HF_FileLock</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    File lock for compresssion or decompression, and</span>
+<span class="sd">    remove lock file automatically.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_release</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">_release</span><span class="p">()</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="c1"># logger.debug(f&#39;Remove {self._lock_file}&#39;)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_lock_file</span><span class="p">)</span>
+        <span class="c1"># The file is already deleted and that&#39;s what we want.</span>
+        <span class="k">except</span> <span class="ne">OSError</span><span class="p">:</span>
+            <span class="k">pass</span>
+        <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="Extractor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Extractor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Extractor</span><span class="p">(</span><span class="n">HF_Extractor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract content from a compressed file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Extractor.extract">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">extract</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">extractor_format</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Extract content from a compressed file.</span>
+
+<span class="sd">        :param input_path: path to compressed file.</span>
+<span class="sd">        :param output_path: path to uncompressed file.</span>
+<span class="sd">        :param extractor_format: extraction format,</span>
+<span class="sd">            see supported algorithm in `Extractor` of huggingface dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">output_path</span><span class="p">),</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># Prevent parallel extractions</span>
+        <span class="n">lock_path</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">output_path</span><span class="p">)</span><span class="o">.</span><span class="n">with_suffix</span><span class="p">(</span><span class="s1">&#39;.lock&#39;</span><span class="p">))</span>
+        <span class="k">with</span> <span class="n">FileLock</span><span class="p">(</span><span class="n">lock_path</span><span class="p">):</span>
+            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">extractor</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">extractors</span><span class="p">[</span><span class="n">extractor_format</span><span class="p">]</span>
+            <span class="k">return</span> <span class="n">extractor</span><span class="o">.</span><span class="n">extract</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="BaseCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">BaseCompressor</span><span class="p">(</span><span class="n">ABC</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Base class that compresses a file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="BaseCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="o">...</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="ZstdCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">ZstdCompressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `zstd` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ZstdCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="kn">import</span><span class="w"> </span><span class="nn">zstandard</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">zstd</span>
+
+        <span class="n">cctx</span> <span class="o">=</span> <span class="n">zstd</span><span class="o">.</span><span class="n">ZstdCompressor</span><span class="p">()</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">ifh</span><span class="p">,</span> <span class="nb">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">ofh</span><span class="p">:</span>
+            <span class="n">cctx</span><span class="o">.</span><span class="n">copy_stream</span><span class="p">(</span><span class="n">ifh</span><span class="p">,</span> <span class="n">ofh</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Lz4Compressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Lz4Compressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `lz4` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Lz4Compressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress a input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">import</span><span class="w"> </span><span class="nn">lz4.frame</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">input_file</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">lz4</span><span class="o">.</span><span class="n">frame</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">copyfileobj</span><span class="p">(</span><span class="n">input_file</span><span class="p">,</span> <span class="n">compressed_file</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="GzipCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">GzipCompressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `gzip` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GzipCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">import</span><span class="w"> </span><span class="nn">gzip</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">input_file</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">gzip</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">copyfileobj</span><span class="p">(</span><span class="n">input_file</span><span class="p">,</span> <span class="n">compressed_file</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Compressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Compressor">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Compressor</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class that contains multiple compressors.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">compressors</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Type</span><span class="p">[</span><span class="n">BaseCompressor</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;gzip&#39;</span><span class="p">:</span> <span class="n">GzipCompressor</span><span class="p">,</span>
+        <span class="c1"># &quot;zip&quot;: ZipCompressor,</span>
+        <span class="c1"># &quot;xz&quot;: XzCompressor,</span>
+        <span class="c1"># &quot;rar&quot;: RarCompressor,</span>
+        <span class="s1">&#39;zstd&#39;</span><span class="p">:</span> <span class="n">ZstdCompressor</span><span class="p">,</span>
+        <span class="c1"># &quot;bz2&quot;: Bzip2Compressor,</span>
+        <span class="c1"># &quot;7z&quot;: SevenZipCompressor,</span>
+        <span class="s1">&#39;lz4&#39;</span><span class="p">:</span> <span class="n">Lz4Compressor</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="Compressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        :param compressor_format: compression format,</span>
+<span class="sd">            see supported algorithm in `compressors`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">compressor_format</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">compressors</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">output_path</span><span class="p">),</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># Prevent parallel extractions</span>
+        <span class="n">lock_path</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">output_path</span><span class="p">)</span><span class="o">.</span><span class="n">with_suffix</span><span class="p">(</span><span class="s1">&#39;.lock&#39;</span><span class="p">))</span>
+        <span class="k">with</span> <span class="n">FileLock</span><span class="p">(</span><span class="n">lock_path</span><span class="p">):</span>
+            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">compressor</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">compressors</span><span class="p">[</span><span class="n">compressor_format</span><span class="p">]</span>
+            <span class="n">compressor</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CompressManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">CompressManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to compress or decompress a input file</span>
+<span class="sd">    using compression format algorithms.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CompressManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param compressor_format: compression format algorithms,</span>
+<span class="sd">            default `zstd`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">compressor_format</span> <span class="ow">in</span> <span class="n">Compressor</span><span class="o">.</span><span class="n">compressors</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span> <span class="o">=</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor</span> <span class="o">=</span> <span class="n">Compressor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span></div>
+
+
+<div class="viewcode-block" id="CompressManager.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span>
+                                 <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CompressManager.decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">decompress</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Decompress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to compressed file.</span>
+<span class="sd">        :param output_path: path to uncompressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span><span class="o">.</span><span class="n">extract</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CacheCompressManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">CacheCompressManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to compress or decompress huggingface cache files</span>
+<span class="sd">    using compression format algorithms.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CacheCompressManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param compressor_format: compression format algorithms,</span>
+<span class="sd">            default `zstd`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span> <span class="o">=</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span> <span class="o">=</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span> <span class="o">=</span> <span class="n">CompressManager</span><span class="p">(</span>
+            <span class="n">compressor_format</span><span class="o">=</span><span class="n">compressor_format</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;_\d</span><span class="si">{5}</span><span class="s1">_of_&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_get_raw_filename</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get a uncompressed file name from a compressed file.</span>
+<span class="sd">        :param filename: path to compressed file.</span>
+<span class="sd">        :return: path to uncompressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">filename</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">filename</span><span class="p">)[:</span><span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)]</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_get_compressed_filename</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get a compressed file name from a uncompressed file.</span>
+<span class="sd">        :param filename: path to uncompressed file.</span>
+<span class="sd">        :return: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_get_cache_directory</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get dataset cache directory.</span>
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        :return: dataset cache directory.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">current_cache_files</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">cache_file</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">])</span>
+            <span class="k">for</span> <span class="n">cache_file</span> <span class="ow">in</span> <span class="n">ds</span><span class="o">.</span><span class="n">cache_files</span>
+        <span class="p">]</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">current_cache_files</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">None</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">current_cache_files</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">cache_directory</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_get_cache_file_names</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                              <span class="n">cache_directory</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+                              <span class="n">fingerprints</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                              <span class="n">extension</span><span class="o">=</span><span class="s1">&#39;.arrow&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get all cache files in the dataset cache directory with fingerprints,</span>
+<span class="sd">        which ends with specified extension.</span>
+
+<span class="sd">        :param cache_directory: dataset cache directory.</span>
+<span class="sd">        :param fingerprints: fingerprints of cache files. String or List are</span>
+<span class="sd">            accepted. If `None`, we will find all cache files which starts with</span>
+<span class="sd">            `cache-` and ends with specified extension.</span>
+<span class="sd">        :param extension: extension of cache files, default `.arrow`</span>
+<span class="sd">        :return: list of file names</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">fingerprints</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">fingerprints</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;&#39;</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">fingerprints</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">fingerprints</span> <span class="o">=</span> <span class="p">[</span><span class="n">fingerprints</span><span class="p">]</span>
+
+        <span class="n">files</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">)</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">files</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">fingerprint</span> <span class="ow">in</span> <span class="n">fingerprints</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">f_name</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;cache-</span><span class="si">{</span><span class="n">fingerprint</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span> \
+                        <span class="ow">and</span> <span class="n">f_name</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">extension</span><span class="p">):</span>
+                    <span class="n">f_names</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">f_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">f_names</span>
+
+<div class="viewcode-block" id="CacheCompressManager.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">prev_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+                 <span class="n">this_ds</span><span class="p">:</span> <span class="n">Dataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress cache files with fingerprint in dataset cache directory.</span>
+
+<span class="sd">        :param prev_ds: previous dataset whose cache files need to be</span>
+<span class="sd">            compressed here.</span>
+<span class="sd">        :param this_ds: Current dataset that is computed from the previous</span>
+<span class="sd">            dataset. There might be overlaps between cache files of them, so we</span>
+<span class="sd">            must not compress cache files that will be used again in the</span>
+<span class="sd">            current dataset. If it&#39;s None, it means all cache files of previous</span>
+<span class="sd">            dataset should be compressed.</span>
+<span class="sd">        :param num_proc: number of processes to compress cache files.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># remove cache files from the list of cache files to be compressed</span>
+        <span class="n">prev_cache_names</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">prev_ds</span><span class="o">.</span><span class="n">cache_files</span><span class="p">]</span>
+        <span class="n">this_cache_names</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">this_ds</span><span class="o">.</span><span class="n">cache_files</span><span class="p">]</span> \
+            <span class="k">if</span> <span class="n">this_ds</span> <span class="k">else</span> <span class="p">[]</span>
+        <span class="n">caches_to_compress</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+            <span class="nb">set</span><span class="p">(</span><span class="n">prev_cache_names</span><span class="p">)</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">this_cache_names</span><span class="p">))</span>
+
+        <span class="n">files_to_remove</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">full_name</span> <span class="ow">in</span> <span class="n">caches_to_compress</span><span class="p">:</span>
+            <span class="c1"># ignore the cache file of the original dataset and only consider</span>
+            <span class="c1"># the cache files of following OPs</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;cache-&#39;</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="c1"># If there are no specified cache files, just skip</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">full_name</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="n">compress_filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_compressed_filename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span>
+                <span class="n">compress_filename</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">compress_filename</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s1">&#39;Compressing cache file to </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">compress</span><span class="p">,</span>
+                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
+                                         <span class="n">full_name</span><span class="p">,</span>
+                                         <span class="n">compress_filename</span><span class="p">,</span>
+                                     <span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">full_name</span><span class="p">,</span>
+                                                   <span class="n">compress_filename</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s1">&#39;Found compressed cache file </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+            <span class="n">files_to_remove</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+
+        <span class="c1"># clean up raw cache file</span>
+        <span class="k">for</span> <span class="n">file_path</span> <span class="ow">in</span> <span class="n">files_to_remove</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Removing cache file </span><span class="si">{</span><span class="n">file_path</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">file_path</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">decompress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                   <span class="n">ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+                   <span class="n">fingerprints</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                   <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Decompress compressed cache files with fingerprint in</span>
+<span class="sd">        dataset cache directory.</span>
+
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        :param fingerprints: fingerprintd of cache files. String or List are</span>
+<span class="sd">            accepted. If `None`, we will find all cache files which starts with</span>
+<span class="sd">            `cache-` and ends with compression format.</span>
+<span class="sd">        :param num_proc: number of processes to decompress cache files.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_directory</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span>
+
+        <span class="c1"># find compressed cache files with given fingerprints</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_file_names</span><span class="p">(</span>
+            <span class="n">cache_directory</span><span class="o">=</span><span class="n">cache_directory</span><span class="p">,</span>
+            <span class="n">fingerprints</span><span class="o">=</span><span class="n">fingerprints</span><span class="p">,</span>
+            <span class="n">extension</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">f_names</span><span class="p">:</span>
+            <span class="n">full_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">,</span> <span class="n">f_name</span><span class="p">))</span>
+            <span class="n">raw_filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_raw_filename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span><span class="n">raw_filename</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">raw_filename</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Decompressing cache file to &#39;</span>
+                                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                    <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">decompress</span><span class="p">,</span>
+                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
+                                         <span class="n">full_name</span><span class="p">,</span>
+                                         <span class="n">raw_filename</span><span class="p">,</span>
+                                     <span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">decompress</span><span class="p">(</span><span class="n">full_name</span><span class="p">,</span> <span class="n">raw_filename</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Found uncompressed cache files &#39;</span>
+                                 <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.format_cache_file_name">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">format_cache_file_name</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span> <span class="n">cache_file_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Use `*` to replace the sub rank in a cache file name.</span>
+<span class="sd">        :param cache_file_name: a cache file name.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">cache_file_name</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">cache_file_name</span>
+
+        <span class="n">cache_file_name</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                 <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;_*_of_&#39;</span><span class="p">,</span>
+                                 <span class="n">string</span><span class="o">=</span><span class="n">cache_file_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">cache_file_name</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.cleanup_cache_files">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">cleanup_cache_files</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Clean up all compressed cache files in dataset cache directory,</span>
+<span class="sd">        which starts with `cache-` and ends with compression format</span>
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_directory</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_file_names</span><span class="p">(</span>
+            <span class="n">cache_directory</span><span class="o">=</span><span class="n">cache_directory</span><span class="p">,</span>
+            <span class="n">extension</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">f_names</span><span class="p">:</span>
+            <span class="n">full_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">,</span> <span class="n">f_name</span><span class="p">))</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Clean up cache file </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="n">f_names</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CompressionOff">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressionOff">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">CompressionOff</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that turn off the cache compression temporarily.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Record the original cache compression method and turn it off.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">.</span><span class="w"> </span><span class="kn">import</span> <span class="n">cache_utils</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">original_cache_compress</span> <span class="o">=</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span>
+        <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Restore the original cache compression method.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span><span class="w"> </span><span class="nn">.</span><span class="w"> </span><span class="kn">import</span> <span class="n">cache_utils</span>
+        <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">original_cache_compress</span></div>
+
+
+
+<div class="viewcode-block" id="compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.compress">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">compress</span><span class="p">(</span><span class="n">prev_ds</span><span class="p">,</span> <span class="n">this_ds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
+        <span class="n">CacheCompressManager</span><span class="p">(</span><span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">)</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span>
+            <span class="n">prev_ds</span><span class="p">,</span> <span class="n">this_ds</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.decompress">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">decompress</span><span class="p">(</span><span class="n">ds</span><span class="p">,</span> <span class="n">fingerprints</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
+        <span class="n">CacheCompressManager</span><span class="p">(</span><span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">)</span><span class="o">.</span><span class="n">decompress</span><span class="p">(</span>
+            <span class="n">ds</span><span class="p">,</span> <span class="n">fingerprints</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="cleanup_compressed_cache_files">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">cleanup_compressed_cache_files</span><span class="p">(</span><span class="n">ds</span><span class="p">):</span>
+    <span class="n">CacheCompressManager</span><span class="p">()</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/constant.html b/_modules/data_juicer/utils/constant.html
new file mode 100644
index 000000000..e11631a6b
--- /dev/null
+++ b/_modules/data_juicer/utils/constant.html
@@ -0,0 +1,439 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.constant &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.constant</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.constant</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">inspect</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">io</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">enum</span><span class="w"> </span><span class="kn">import</span> <span class="n">Enum</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">zstandard</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">zstd</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="n">DEFAULT_PREFIX</span> <span class="o">=</span> <span class="s1">&#39;__dj__&#39;</span>
+
+
+<div class="viewcode-block" id="Fields">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.Fields">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Fields</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1"># for storing stats generated by filter op</span>
+    <span class="n">stats</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;stats__&#39;</span>
+    <span class="c1"># for storing metas generated by mapper op</span>
+    <span class="n">meta</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;meta__&#39;</span>
+    <span class="c1"># for storing metas of batch samples generated by aggregator op</span>
+    <span class="n">batch_meta</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;batch_meta__&#39;</span>
+    <span class="n">context</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;context__&#39;</span>
+    <span class="n">suffix</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;suffix__&#39;</span>
+
+    <span class="c1"># the name of the original file from which this sample was derived.</span>
+    <span class="n">source_file</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;source_file__&#39;</span>
+
+    <span class="c1"># the name of directory to store the produced multimodal data</span>
+    <span class="n">multimodal_data_output_dir</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;produced_data__&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="BatchMetaKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">BatchMetaKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="n">entity_attribute</span> <span class="o">=</span> <span class="s1">&#39;entity_attribute&#39;</span>
+    <span class="n">most_relavant_entities</span> <span class="o">=</span> <span class="s1">&#39;most_relavant_entities&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="MetaKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.MetaKeys">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">MetaKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+
+    <span class="c1"># === text related tags ===</span>
+    <span class="c1"># # sentiment</span>
+    <span class="n">dialog_sentiment_intensity</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_intensity&#39;</span>
+    <span class="n">dialog_sentiment_intensity_analysis</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_intensity_analysis&#39;</span>
+    <span class="n">query_sentiment_label</span> <span class="o">=</span> <span class="s1">&#39;query_sentiment_label&#39;</span>
+    <span class="n">query_sentiment_score</span> <span class="o">=</span> <span class="s1">&#39;query_sentiment_label_score&#39;</span>
+    <span class="n">dialog_sentiment_labels</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_labels&#39;</span>
+    <span class="n">dialog_sentiment_labels_analysis</span> <span class="o">=</span> <span class="s1">&#39;dialog_sentiment_labels_analysis&#39;</span>
+    <span class="c1"># # intent</span>
+    <span class="n">dialog_intent_labels</span> <span class="o">=</span> <span class="s1">&#39;dialog_intent_labels&#39;</span>
+    <span class="n">dialog_intent_labels_analysis</span> <span class="o">=</span> <span class="s1">&#39;dialog_intent_labels_analysis&#39;</span>
+    <span class="n">query_intent_label</span> <span class="o">=</span> <span class="s1">&#39;query_intent_label&#39;</span>
+    <span class="n">query_intent_score</span> <span class="o">=</span> <span class="s1">&#39;query_intent_label_score&#39;</span>
+    <span class="c1"># # topic</span>
+    <span class="n">dialog_topic_labels</span> <span class="o">=</span> <span class="s1">&#39;dialog_topic_labels&#39;</span>
+    <span class="n">dialog_topic_labels_analysis</span> <span class="o">=</span> <span class="s1">&#39;dialog_topic_labels_analysis&#39;</span>
+    <span class="n">query_topic_label</span> <span class="o">=</span> <span class="s1">&#39;query_topic_label&#39;</span>
+    <span class="n">query_topic_score</span> <span class="o">=</span> <span class="s1">&#39;query_topic_label_score&#39;</span>
+
+    <span class="c1"># === multi-modal related tags ===</span>
+    <span class="c1"># # video-frame tags</span>
+    <span class="n">video_frame_tags</span> <span class="o">=</span> <span class="s1">&#39;video_frame_tags&#39;</span>
+    <span class="c1"># # video-audio tags</span>
+    <span class="n">video_audio_tags</span> <span class="o">=</span> <span class="s1">&#39;video_audio_tags&#39;</span>
+    <span class="c1"># # video frames</span>
+    <span class="n">video_frames</span> <span class="o">=</span> <span class="s1">&#39;video_frames&#39;</span>
+    <span class="c1"># # image tags</span>
+    <span class="n">image_tags</span> <span class="o">=</span> <span class="s1">&#39;image_tags&#39;</span>
+
+    <span class="c1"># === info extraction related tags ===</span>
+    <span class="c1"># # for event extraction</span>
+    <span class="n">event_description</span> <span class="o">=</span> <span class="s1">&#39;event_description&#39;</span>
+    <span class="c1"># # a list of characters relevant to the event</span>
+    <span class="n">relevant_characters</span> <span class="o">=</span> <span class="s1">&#39;relevant_characters&#39;</span>
+    <span class="c1"># # the given main entities for attribute extraction</span>
+    <span class="n">main_entities</span> <span class="o">=</span> <span class="s1">&#39;main_entities&#39;</span>
+    <span class="c1"># # the given attributes to be extracted</span>
+    <span class="n">attributes</span> <span class="o">=</span> <span class="s1">&#39;attributes&#39;</span>
+    <span class="c1"># # the extracted attribute descriptions</span>
+    <span class="n">attribute_descriptions</span> <span class="o">=</span> <span class="s1">&#39;attribute_descriptions&#39;</span>
+    <span class="c1"># # extract from raw datas for support the attribute</span>
+    <span class="n">attribute_support_texts</span> <span class="o">=</span> <span class="s1">&#39;attribute_support_texts&#39;</span>
+    <span class="c1"># # the nickname relationship</span>
+    <span class="n">nickname</span> <span class="o">=</span> <span class="s1">&#39;nickname&#39;</span>
+    <span class="c1"># # the entity for knowledge graph</span>
+    <span class="n">entity</span> <span class="o">=</span> <span class="s1">&#39;entity&#39;</span>
+    <span class="c1"># # # the name of entity</span>
+    <span class="n">entity_name</span> <span class="o">=</span> <span class="s1">&#39;entity_name&#39;</span>
+    <span class="c1"># # # the type of entity</span>
+    <span class="n">entity_type</span> <span class="o">=</span> <span class="s1">&#39;entity_type&#39;</span>
+    <span class="c1"># # # the description of entity</span>
+    <span class="n">entity_description</span> <span class="o">=</span> <span class="s1">&#39;entity_entity_description&#39;</span>
+    <span class="c1"># # the relationship for knowledge graph</span>
+    <span class="n">relation</span> <span class="o">=</span> <span class="s1">&#39;relation&#39;</span>
+    <span class="c1"># # # the source entity of the relation</span>
+    <span class="n">source_entity</span> <span class="o">=</span> <span class="s1">&#39;relation_source_entity&#39;</span>
+    <span class="c1"># # # the target entity of the relation</span>
+    <span class="n">target_entity</span> <span class="o">=</span> <span class="s1">&#39;relation_target_entity&#39;</span>
+    <span class="c1"># # # the description of the relation</span>
+    <span class="n">relation_description</span> <span class="o">=</span> <span class="s1">&#39;relation_description&#39;</span>
+    <span class="c1"># # # the keywords of the relation</span>
+    <span class="n">relation_keywords</span> <span class="o">=</span> <span class="s1">&#39;relation_keywords&#39;</span>
+    <span class="c1"># # # the strength of the relation</span>
+    <span class="n">relation_strength</span> <span class="o">=</span> <span class="s1">&#39;relation_strength&#39;</span>
+    <span class="c1"># # the keyword in a text</span>
+    <span class="n">keyword</span> <span class="o">=</span> <span class="s1">&#39;keyword&#39;</span>
+    <span class="c1"># # support text</span>
+    <span class="n">support_text</span> <span class="o">=</span> <span class="s1">&#39;support_text&#39;</span>
+    <span class="c1"># # role relation</span>
+    <span class="n">role_relation</span> <span class="o">=</span> <span class="s1">&#39;role_relation&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="StatsKeysMeta">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">StatsKeysMeta</span><span class="p">(</span><span class="nb">type</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    a helper class to track the mapping from OP&#39;s name to its used stats_keys</span>
+
+<span class="sd">    e.g., # once the AlphanumericFilter&#39;s compute_stats method has been called</span>
+<span class="sd">    res = TrackingDescriptor.get_access_log()</span>
+<span class="sd">    print(res) # {&quot;AlphanumericFilter&quot;: [&quot;alnum_ratio&quot;, &quot;alpha_token_ratio&quot;]}</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">_accessed_by</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__getattr__</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">attr</span><span class="p">):</span>
+        <span class="n">caller_class</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span><span class="o">.</span><span class="n">f_globals</span><span class="p">[</span><span class="s1">&#39;__name__&#39;</span><span class="p">]</span>
+        <span class="c1"># no need to track the parent classes</span>
+        <span class="n">caller_class</span> <span class="o">=</span> <span class="n">caller_class</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">stat_key</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">cls</span><span class="o">.</span><span class="n">_constants_class</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">caller_class</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">:</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">stat_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]:</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">stat_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">stat_key</span>
+
+<div class="viewcode-block" id="StatsKeysMeta.get_access_log">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_access_log</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">dj_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span>
+        <span class="k">elif</span> <span class="n">dj_cfg</span><span class="p">:</span>
+            <span class="n">tmp_dj_cfg</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">dj_cfg</span><span class="p">)</span>
+            <span class="c1"># the access has been skipped due to the use of cache</span>
+            <span class="c1"># we will using a temp data sample to get the access log</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">)</span> <span class="ow">and</span> \
+                    <span class="p">(</span><span class="s1">&#39;jsonl&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span> <span class="ow">or</span>
+                     <span class="s1">&#39;jsonl.zst&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="s1">&#39;Begin to track the usage of ops with a dummy data sample&#39;</span><span class="p">)</span>
+
+                <span class="c1"># load the first line as tmp_data</span>
+                <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">first_line</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="k">if</span> <span class="s1">&#39;jsonl.zst&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">:</span>
+                    <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="o">.</span> \
+                        <span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">,</span> <span class="s1">&#39;.tmp.jsonl&#39;</span><span class="p">)</span>
+                    <span class="c1"># Open the file in binary mode and</span>
+                    <span class="c1"># create a Zstandard decompression context</span>
+                    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                        <span class="n">dctx</span> <span class="o">=</span> <span class="n">zstd</span><span class="o">.</span><span class="n">ZstdDecompressor</span><span class="p">()</span>
+                        <span class="c1"># Create a stream reader for the file and decode the</span>
+                        <span class="c1"># first line</span>
+                        <span class="k">with</span> <span class="n">dctx</span><span class="o">.</span><span class="n">stream_reader</span><span class="p">(</span><span class="n">compressed_file</span><span class="p">)</span> <span class="k">as</span> <span class="n">reader</span><span class="p">:</span>
+                            <span class="n">text_stream</span> <span class="o">=</span> <span class="n">io</span><span class="o">.</span><span class="n">TextIOWrapper</span><span class="p">(</span><span class="n">reader</span><span class="p">,</span>
+                                                           <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+                            <span class="n">first_line</span> <span class="o">=</span> <span class="n">text_stream</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="s1">&#39;jsonl&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">:</span>
+                    <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="o">.</span> \
+                        <span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.tmp.jsonl&#39;</span><span class="p">)</span>
+                    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">orig_file</span><span class="p">:</span>
+                        <span class="n">first_line</span> <span class="o">=</span> <span class="n">orig_file</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+
+                <span class="k">assert</span> <span class="n">tmp_f_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">first_line</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> \
+                    <span class="s1">&#39;error when loading the first line, when &#39;</span> \
+                    <span class="sa">f</span><span class="s1">&#39;dj_cfg.dataset_path=</span><span class="si">{</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="si">}</span><span class="s1">&#39;</span>
+
+                <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">tmp_f_name</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">tmp_file</span><span class="p">:</span>
+                    <span class="n">tmp_file</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">first_line</span><span class="p">)</span>
+
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span> <span class="o">=</span> <span class="n">tmp_f_name</span>
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">use_checkpoint</span> <span class="o">=</span> <span class="kc">False</span>
+
+                <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.config</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_init_configs</span>
+                <span class="n">tmp_dj_cfg</span> <span class="o">=</span> <span class="n">get_init_configs</span><span class="p">(</span><span class="n">tmp_dj_cfg</span><span class="p">)</span>
+
+                <span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core</span><span class="w"> </span><span class="kn">import</span> <span class="n">Analyzer</span>
+                <span class="n">tmp_analyzer</span> <span class="o">=</span> <span class="n">Analyzer</span><span class="p">(</span><span class="n">tmp_dj_cfg</span><span class="p">)</span>
+                <span class="c1"># do not overwrite the true analysis results</span>
+                <span class="n">tmp_analyzer</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">skip_export</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+                <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">tmp_f_name</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;For now, the dummy data is supported for only jsonl type&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;. Please check your config as </span><span class="si">{</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="si">}</span><span class="s1"> is &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;either not existed or in jsonl type.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="StatsKeysConstant">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">StatsKeysConstant</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1">#  === text ===</span>
+    <span class="n">alpha_token_ratio</span> <span class="o">=</span> <span class="s1">&#39;alpha_token_ratio&#39;</span>
+    <span class="n">alnum_ratio</span> <span class="o">=</span> <span class="s1">&#39;alnum_ratio&#39;</span>
+    <span class="n">avg_line_length</span> <span class="o">=</span> <span class="s1">&#39;avg_line_length&#39;</span>
+    <span class="n">char_rep_ratio</span> <span class="o">=</span> <span class="s1">&#39;char_rep_ratio&#39;</span>
+    <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="s1">&#39;flagged_words_ratio&#39;</span>
+    <span class="n">lang</span> <span class="o">=</span> <span class="s1">&#39;lang&#39;</span>
+    <span class="n">lang_score</span> <span class="o">=</span> <span class="s1">&#39;lang_score&#39;</span>
+    <span class="n">max_line_length</span> <span class="o">=</span> <span class="s1">&#39;max_line_length&#39;</span>
+    <span class="n">perplexity</span> <span class="o">=</span> <span class="s1">&#39;perplexity&#39;</span>
+    <span class="n">special_char_ratio</span> <span class="o">=</span> <span class="s1">&#39;special_char_ratio&#39;</span>
+    <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="s1">&#39;stopwords_ratio&#39;</span>
+    <span class="n">text_len</span> <span class="o">=</span> <span class="s1">&#39;text_len&#39;</span>
+    <span class="n">num_action</span> <span class="o">=</span> <span class="s1">&#39;num_action&#39;</span>
+    <span class="n">num_dependency_edges</span> <span class="o">=</span> <span class="s1">&#39;num_dependency_edges&#39;</span>
+    <span class="n">num_token</span> <span class="o">=</span> <span class="s1">&#39;num_token&#39;</span>
+    <span class="n">num_words</span> <span class="o">=</span> <span class="s1">&#39;num_words&#39;</span>
+    <span class="n">word_rep_ratio</span> <span class="o">=</span> <span class="s1">&#39;word_rep_ratio&#39;</span>
+
+    <span class="c1">#  === image ===</span>
+    <span class="n">aspect_ratios</span> <span class="o">=</span> <span class="s1">&#39;aspect_ratios&#39;</span>
+    <span class="n">image_width</span> <span class="o">=</span> <span class="s1">&#39;image_width&#39;</span>
+    <span class="n">image_height</span> <span class="o">=</span> <span class="s1">&#39;image_height&#39;</span>
+    <span class="n">image_sizes</span> <span class="o">=</span> <span class="s1">&#39;image_sizes&#39;</span>
+    <span class="n">face_ratios</span> <span class="o">=</span> <span class="s1">&#39;face_ratios&#39;</span>
+    <span class="n">face_detections</span> <span class="o">=</span> <span class="s1">&#39;face_detections&#39;</span>
+    <span class="n">face_counts</span> <span class="o">=</span> <span class="s1">&#39;face_counts&#39;</span>
+    <span class="n">image_aesthetics_scores</span> <span class="o">=</span> <span class="s1">&#39;image_aesthetics_scores&#39;</span>
+    <span class="n">image_nsfw_score</span> <span class="o">=</span> <span class="s1">&#39;image_nsfw_score&#39;</span>
+    <span class="n">image_watermark_prob</span> <span class="o">=</span> <span class="s1">&#39;image_watermark_prob&#39;</span>
+    <span class="n">image_pair_similarity</span> <span class="o">=</span> <span class="s1">&#39;image_pair_similarity&#39;</span>
+
+    <span class="c1">#  === audios ===</span>
+    <span class="n">audio_duration</span> <span class="o">=</span> <span class="s1">&#39;audio_duration&#39;</span>
+    <span class="n">audio_nmf_snr</span> <span class="o">=</span> <span class="s1">&#39;audio_nmf_snr&#39;</span>
+    <span class="n">audio_sizes</span> <span class="o">=</span> <span class="s1">&#39;audio_sizes&#39;</span>
+
+    <span class="c1">#  === videos ===</span>
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="s1">&#39;video_duration&#39;</span>
+    <span class="n">video_aspect_ratios</span> <span class="o">=</span> <span class="s1">&#39;video_aspect_ratios&#39;</span>
+    <span class="n">video_width</span> <span class="o">=</span> <span class="s1">&#39;video_width&#39;</span>
+    <span class="n">video_height</span> <span class="o">=</span> <span class="s1">&#39;video_height&#39;</span>
+    <span class="n">video_ocr_area_ratio</span> <span class="o">=</span> <span class="s1">&#39;video_ocr_area_ratio&#39;</span>
+    <span class="n">video_aesthetic_score</span> <span class="o">=</span> <span class="s1">&#39;video_aesthetic_score&#39;</span>
+    <span class="n">video_frames_aesthetics_score</span> <span class="o">=</span> <span class="s1">&#39;video_frames_aesthetics_score&#39;</span>
+    <span class="n">video_motion_score</span> <span class="o">=</span> <span class="s1">&#39;video_motion_score&#39;</span>
+    <span class="n">video_nsfw_score</span> <span class="o">=</span> <span class="s1">&#39;video_nsfw_score&#39;</span>
+    <span class="n">video_watermark_prob</span> <span class="o">=</span> <span class="s1">&#39;video_watermark_prob&#39;</span>
+
+    <span class="c1">#  === multimodal ===</span>
+    <span class="c1"># image-text</span>
+    <span class="n">image_text_similarity</span> <span class="o">=</span> <span class="s1">&#39;image_text_similarity&#39;</span>
+    <span class="n">image_text_matching_score</span> <span class="o">=</span> <span class="s1">&#39;image_text_matching_score&#39;</span>
+    <span class="n">phrase_grounding_recall</span> <span class="o">=</span> <span class="s1">&#39;phrase_grounding_recall&#39;</span>
+
+    <span class="c1"># video-text</span>
+    <span class="n">video_frames_text_similarity</span> <span class="o">=</span> <span class="s1">&#39;video_frames_text_similarity&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="StatsKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeys">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">StatsKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">,</span> <span class="n">metaclass</span><span class="o">=</span><span class="n">StatsKeysMeta</span><span class="p">):</span>
+    <span class="n">_constants_class</span> <span class="o">=</span> <span class="n">StatsKeysConstant</span></div>
+
+
+
+<div class="viewcode-block" id="HashKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.HashKeys">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">HashKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="n">uid</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;uid&#39;</span>
+    <span class="nb">hash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;hash&#39;</span>
+    <span class="n">minhash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;minhash&#39;</span>
+    <span class="n">simhash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;simhash&#39;</span>
+
+    <span class="c1"># image</span>
+    <span class="n">imagehash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;imagehash&#39;</span>
+
+    <span class="c1"># video</span>
+    <span class="n">videohash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;videohash&#39;</span>
+
+    <span class="c1"># duplicate flag</span>
+    <span class="n">is_unique</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;is_unique&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="InterVars">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.InterVars">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">InterVars</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1">#  === text ===</span>
+    <span class="n">lines</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;lines&#39;</span>
+    <span class="n">words</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;words&#39;</span>
+    <span class="n">refined_words</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;refined_words&#39;</span>
+
+    <span class="c1">#  === image ===</span>
+    <span class="n">loaded_images</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_images&#39;</span>  <span class="c1"># Image</span>
+
+    <span class="c1">#  === audios ===</span>
+    <span class="n">loaded_audios</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_audios&#39;</span>  <span class="c1"># (data, sampling_rate)</span>
+
+    <span class="c1">#  === videos ===</span>
+    <span class="c1"># # InputContainer from av.</span>
+    <span class="c1"># # Key: {video_path}</span>
+    <span class="n">loaded_videos</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_videos&#39;</span>
+    <span class="c1"># sampled frames.</span>
+    <span class="c1"># # Key: {video_path}-{frame_sampling_method}[-{frame_num}]</span>
+    <span class="c1"># #   {frame_num} is only used when {frame_sampling_method} is &quot;uniform&quot;</span>
+    <span class="n">sampled_frames</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;sampled_frames&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="JobRequiredKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">JobRequiredKeys</span><span class="p">(</span><span class="n">Enum</span><span class="p">):</span>
+    <span class="n">hook</span> <span class="o">=</span> <span class="s1">&#39;hook&#39;</span>
+    <span class="n">dj_configs</span> <span class="o">=</span> <span class="s1">&#39;dj_configs&#39;</span>
+    <span class="n">meta_name</span> <span class="o">=</span> <span class="s1">&#39;meta_name&#39;</span>
+    <span class="n">extra_configs</span> <span class="o">=</span> <span class="s1">&#39;extra_configs&#39;</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/file_utils.html b/_modules/data_juicer/utils/file_utils.html
new file mode 100644
index 000000000..29f80edef
--- /dev/null
+++ b/_modules/data_juicer/utils/file_utils.html
@@ -0,0 +1,346 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.file_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.file_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.file_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">asyncio</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">copy</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">shutil</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">datetime</span><span class="w"> </span><span class="kn">import</span> <span class="n">datetime</span><span class="p">,</span> <span class="n">timezone</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">AsyncGenerator</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets.utils.extract</span><span class="w"> </span><span class="kn">import</span> <span class="n">ZstdExtractor</span> <span class="k">as</span> <span class="n">Extractor</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">dict_to_hash</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">DEFAULT_PREFIX</span><span class="p">,</span> <span class="n">Fields</span>
+
+
+<div class="viewcode-block" id="follow_read">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.follow_read">[docs]</a>
+<span class="k">async</span> <span class="k">def</span><span class="w"> </span><span class="nf">follow_read</span><span class="p">(</span>
+    <span class="n">logfile_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="n">skip_existing_content</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AsyncGenerator</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Read a file in online and iterative manner</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        logfile_path (`str`):</span>
+<span class="sd">            The file path to be read.</span>
+<span class="sd">        skip_existing_content (`bool`, defaults to `False):</span>
+<span class="sd">            If True, read from the end, otherwise read from the beginning.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        One line string of the file content.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># in most unix file systems, the read operation is safe</span>
+    <span class="c1"># for a file being target file of another &quot;write process&quot;</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">logfile_path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">,</span> <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">,</span> <span class="n">errors</span><span class="o">=</span><span class="s1">&#39;ignore&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">logfile</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">skip_existing_content</span><span class="p">:</span>
+            <span class="c1"># move to the file&#39;s end, similar to `tail -f`</span>
+            <span class="n">logfile</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+
+        <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+            <span class="n">line</span> <span class="o">=</span> <span class="n">logfile</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">line</span><span class="p">:</span>
+                <span class="c1"># no new line, wait to avoid CPU override</span>
+                <span class="k">await</span> <span class="n">asyncio</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="mf">0.1</span><span class="p">)</span>
+                <span class="k">continue</span>
+            <span class="k">yield</span> <span class="n">line</span></div>
+
+
+
+<div class="viewcode-block" id="find_files_with_suffix">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">find_files_with_suffix</span><span class="p">(</span>
+        <span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">],</span>
+        <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Traverse a path to find all files with the specified suffixes.</span>
+
+<span class="sd">    :param path: path (str/Path): source path</span>
+<span class="sd">    :param suffixes: specified file suffixes, &#39;.txt&#39; or [&#39;.txt&#39;, &#39;.md&#39;]</span>
+<span class="sd">        etc</span>
+<span class="sd">    :return: list of all files with the specified suffixes</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
+    <span class="n">file_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
+
+    <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">if</span> <span class="n">x</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">suffixes</span>
+    <span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">path</span><span class="o">.</span><span class="n">is_file</span><span class="p">():</span>
+        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">path</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">searched_files</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">rglob</span><span class="p">(</span><span class="s1">&#39;*&#39;</span><span class="p">)</span>
+        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">file</span> <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">searched_files</span> <span class="k">if</span> <span class="n">file</span><span class="o">.</span><span class="n">is_file</span><span class="p">()]</span>
+
+    <span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span>
+
+    <span class="c1"># only keep the file with the specified suffixes</span>
+    <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">files</span><span class="p">:</span>
+        <span class="n">suffix</span> <span class="o">=</span> <span class="n">file</span><span class="o">.</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">extractor</span><span class="o">.</span><span class="n">is_extractable</span><span class="p">(</span><span class="n">file</span><span class="p">):</span>
+
+            <span class="c1"># TODO</span>
+            <span class="c1"># hard code</span>
+            <span class="c1"># only support zstd-format file now,</span>
+            <span class="c1"># and use the last 2 sub-suffixes as the final suffix</span>
+            <span class="c1"># just like &#39;.jsonl.zst&#39;</span>
+            <span class="n">file_suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">suffix</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">suffixes</span><span class="p">]</span>
+            <span class="n">suffix</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">file_suffixes</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">suffixes</span> <span class="ow">or</span> <span class="p">(</span><span class="n">suffix</span> <span class="ow">in</span> <span class="n">suffixes</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">suffix</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">file_dict</span><span class="p">:</span>
+                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">)]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">file_dict</span></div>
+
+
+
+<div class="viewcode-block" id="is_absolute_path">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">is_absolute_path</span><span class="p">(</span><span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check whether input path is a absolute path.</span>
+
+<span class="sd">    :param path: input path</span>
+<span class="sd">    :return: True means input path is absolute path, False means input</span>
+<span class="sd">        path is a relative path.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span><span class="o">.</span><span class="n">is_absolute</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="add_suffix_to_filename">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">add_suffix_to_filename</span><span class="p">(</span><span class="n">filename</span><span class="p">,</span> <span class="n">suffix</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Add a suffix to the filename. Only regard the content after the last dot</span>
+<span class="sd">    as the file extension.</span>
+<span class="sd">    E.g.</span>
+<span class="sd">    1. abc.jpg + &quot;_resized&quot; --&gt; abc_resized.jpg</span>
+<span class="sd">    2. edf.xyz.csv + &quot;_processed&quot; --&gt; edf.xyz_processed.csv</span>
+<span class="sd">    3. /path/to/file.json + &quot;_suf&quot; --&gt; /path/to/file_suf.json</span>
+<span class="sd">    4. ds.tar.gz + &quot;_whoops&quot; --&gt; ds.tar_whoops.gz (maybe unexpected)</span>
+
+<span class="sd">    :param filename: input filename</span>
+<span class="sd">    :param suffix: suffix string to be added</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span><span class="p">,</span> <span class="n">ext</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span>
+    <span class="n">new_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">name</span><span class="si">}{</span><span class="n">suffix</span><span class="si">}{</span><span class="n">ext</span><span class="si">}</span><span class="s1">&#39;</span>
+    <span class="k">return</span> <span class="n">new_name</span></div>
+
+
+
+<div class="viewcode-block" id="create_directory_if_not_exists">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">create_directory_if_not_exists</span><span class="p">(</span><span class="n">directory_path</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        create a directory if not exists, this function is process safe</span>
+
+<span class="sd">        :param directory_path: directory path to be create</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">directory_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">directory_path</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">directory_path</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">FileExistsError</span><span class="p">:</span>
+        <span class="c1"># We ignore the except from multi processes or threads.</span>
+        <span class="c1"># Just make sure the directory exists.</span>
+        <span class="k">pass</span></div>
+
+
+
+<div class="viewcode-block" id="transfer_filename">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">transfer_filename</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">],</span> <span class="n">op_name</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">op_kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        According to the op and hashing its parameters &#39;op_kwargs&#39; addition</span>
+<span class="sd">        to the process id and current time as the &#39;hash_val&#39;, map the</span>
+<span class="sd">        original_filepath to another unique file path. E.g.</span>
+
+<span class="sd">            1. abc.jpg --&gt;</span>
+<span class="sd">                __dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            2. ./abc.jpg --&gt;</span>
+<span class="sd">                ./__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            3. /path/to/abc.jpg --&gt;</span>
+<span class="sd">                /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            4. /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val1}#.jpg --&gt;</span>
+<span class="sd">                /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val2}#.jpg</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># produce the directory</span>
+    <span class="n">original_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">)</span>
+    <span class="n">dir_token</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;/</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/&#39;</span>
+    <span class="k">if</span> <span class="n">dir_token</span> <span class="ow">in</span> <span class="n">original_dir</span><span class="p">:</span>
+        <span class="n">original_dir</span> <span class="o">=</span> <span class="n">original_dir</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">dir_token</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">new_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">original_dir</span><span class="p">,</span>
+                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">create_directory_if_not_exists</span><span class="p">(</span><span class="n">new_dir</span><span class="p">)</span>
+
+    <span class="c1"># produce the unique hash code</span>
+    <span class="n">unique_parameters</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">op_kwargs</span><span class="p">)</span>
+    <span class="n">unique_parameters</span><span class="p">[</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">pid&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getpid</span><span class="p">()</span>
+    <span class="n">unique_parameters</span><span class="p">[</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">timestamp&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span>
+        <span class="n">datetime</span><span class="o">.</span><span class="n">now</span><span class="p">(</span><span class="n">timezone</span><span class="o">.</span><span class="n">utc</span><span class="p">))</span>
+    <span class="n">unique_hash</span> <span class="o">=</span> <span class="n">dict_to_hash</span><span class="p">(</span><span class="n">unique_parameters</span><span class="p">)</span>
+
+    <span class="c1"># if the input data is produced by data-juicer, replace the hash code</span>
+    <span class="c1"># else append hash value to filename</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">add_hash_value</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">new_hash_value</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;__dj_hash_#(.*?)#&#39;</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+        <span class="c1"># draw the string produced by data-juicer</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="p">[:</span><span class="n">match</span><span class="o">.</span><span class="n">start</span><span class="p">()]</span>
+
+        <span class="k">return</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">text</span><span class="si">}</span><span class="s1">__dj_hash_#</span><span class="si">{</span><span class="n">new_hash_value</span><span class="si">}</span><span class="s1">#&#39;</span>
+
+    <span class="n">original_filename</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">)</span>
+    <span class="n">name</span><span class="p">,</span> <span class="n">ext</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">original_filename</span><span class="p">)</span>
+    <span class="n">new_name</span> <span class="o">=</span> <span class="n">add_hash_value</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">unique_hash</span><span class="p">)</span>
+    <span class="n">new_filepath</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">new_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_name</span><span class="si">}{</span><span class="n">ext</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">new_filepath</span></div>
+
+
+
+<div class="viewcode-block" id="copy_data">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.copy_data">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">copy_data</span><span class="p">(</span><span class="n">from_dir</span><span class="p">,</span> <span class="n">to_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Copy data from from_dir/data_path to to_dir/data_path.</span>
+<span class="sd">        Return True if success.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">from_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">from_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">)</span>
+    <span class="n">to_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">to_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">from_path</span><span class="p">):</span>
+        <span class="k">return</span> <span class="kc">False</span>
+    <span class="n">parent_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">to_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">parent_dir</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">parent_dir</span><span class="p">)</span>
+    <span class="n">shutil</span><span class="o">.</span><span class="n">copy2</span><span class="p">(</span><span class="n">from_path</span><span class="p">,</span> <span class="n">to_path</span><span class="p">)</span>
+    <span class="k">return</span> <span class="kc">True</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/fingerprint_utils.html b/_modules/data_juicer/utils/fingerprint_utils.html
new file mode 100644
index 000000000..638fae4f1
--- /dev/null
+++ b/_modules/data_juicer/utils/fingerprint_utils.html
@@ -0,0 +1,281 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.fingerprint_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.fingerprint_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.fingerprint_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">dill</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">xxhash</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets.fingerprint</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">_CACHING_ENABLED</span><span class="p">,</span> <span class="n">fingerprint_warnings</span><span class="p">,</span>
+                                  <span class="n">format_kwargs_for_fingerprint</span><span class="p">,</span>
+                                  <span class="n">format_transform_for_fingerprint</span><span class="p">,</span>
+                                  <span class="n">generate_random_fingerprint</span><span class="p">,</span>
+                                  <span class="n">validate_fingerprint</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="Hasher">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Hasher</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Hasher that accepts python objects as inputs.&quot;&quot;&quot;</span>
+
+    <span class="n">dispatch</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+<div class="viewcode-block" id="Hasher.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash_bytes">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">hash_bytes</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">bytes</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">bytes</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="nb">bytes</span><span class="p">)</span> <span class="k">else</span> <span class="n">value</span>
+        <span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">value</span><span class="p">:</span>
+            <span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash_default">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">hash_default</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Use dill to serialize objects to avoid serialization failures.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">hash_bytes</span><span class="p">(</span><span class="n">dill</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">value</span><span class="p">))</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">hash</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">dispatch</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">dispatch</span><span class="p">[</span><span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)](</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">hash_default</span><span class="p">(</span><span class="n">value</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Hasher.update">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">update</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">header_for_update</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;==</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)</span><span class="si">}</span><span class="s1">==&#39;</span>
+        <span class="n">value_for_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">header_for_update</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf8&#39;</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">value_for_update</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">))</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hexdigest">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">hexdigest</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="update_fingerprint">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">update_fingerprint</span><span class="p">(</span><span class="n">fingerprint</span><span class="p">,</span> <span class="n">transform</span><span class="p">,</span> <span class="n">transform_args</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Combining various objects to update the fingerprint.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">hasher</span> <span class="o">=</span> <span class="n">Hasher</span><span class="p">()</span>
+    <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">fingerprint</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">transform</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa various errors might raise here from pickle or dill</span>
+        <span class="k">if</span> <span class="n">_CACHING_ENABLED</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">fingerprint_warnings</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                    <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                     a random hash was used instead. Make sure your </span><span class="se">\</span>
+<span class="s2">                     transforms and parameters are serializable with </span><span class="se">\</span>
+<span class="s2">                     pickle or dill for the dataset fingerprinting and </span><span class="se">\</span>
+<span class="s2">                     caching to work. If you reuse this transform, the </span><span class="se">\</span>
+<span class="s2">                     caching mechanism will consider it to be different </span><span class="se">\</span>
+<span class="s2">                     from the previous calls and recompute everything. </span><span class="se">\</span>
+<span class="s2">                     This warning is only showed once. Subsequent hashing </span><span class="se">\</span>
+<span class="s2">                     failures won&#39;t be showed.&quot;</span><span class="p">)</span>
+                <span class="n">fingerprint_warnings</span><span class="p">[</span>
+                    <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                     a random hash was used instead.&quot;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, a </span><span class="se">\</span>
+<span class="s2">                 random hash was used instead. This doesn&#39;t affect caching </span><span class="se">\</span>
+<span class="s2">                 since it&#39;s disabled.&quot;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">generate_random_fingerprint</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">transform_args</span><span class="p">):</span>
+        <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa various errors might raise here from pickle or dill</span>
+            <span class="k">if</span> <span class="n">_CACHING_ENABLED</span><span class="p">:</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">fingerprint_warnings</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                        <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">):</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the </span><span class="se">\</span>
+<span class="s2">                         transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                         a random hash was used instead. Make sure your </span><span class="se">\</span>
+<span class="s2">                         transforms and parameters are serializable with </span><span class="se">\</span>
+<span class="s2">                         pickle or dill for the dataset fingerprinting and </span><span class="se">\</span>
+<span class="s2">                         caching to work. If you reuse this transform, the </span><span class="se">\</span>
+<span class="s2">                         caching mechanism will consider it to be different </span><span class="se">\</span>
+<span class="s2">                         from the previous calls and recompute everything. </span><span class="se">\</span>
+<span class="s2">                         This warning is only showed once. Subsequent hashing </span><span class="se">\</span>
+<span class="s2">                         failures won&#39;t be showed.&quot;</span><span class="p">)</span>
+                    <span class="n">fingerprint_warnings</span><span class="p">[</span>
+                        <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the </span><span class="se">\</span>
+<span class="s2">                         transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                         a random hash was used instead.&quot;</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the transform </span><span class="se">\</span>
+<span class="s2">                     </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, a random hash </span><span class="se">\</span>
+<span class="s2">                     was used instead. This doesn&#39;t affect caching since it&#39;s </span><span class="se">\</span>
+<span class="s2">                     disabled.&quot;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">generate_random_fingerprint</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">hasher</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="generate_fingerprint">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">generate_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Generate new fingerprints by using various kwargs of the dataset.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
+        <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">)</span>
+        <span class="n">dataset_kwargs</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;shard&#39;</span><span class="p">:</span> <span class="n">ds</span><span class="p">,</span> <span class="s1">&#39;function&#39;</span><span class="p">:</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]}</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">dataset_kwargs</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;shard&#39;</span><span class="p">:</span> <span class="n">ds</span><span class="p">}</span>
+    <span class="n">dataset_kwargs</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="c1"># we create a unique hash from the function,</span>
+    <span class="c1"># current dataset file and the mapping args</span>
+    <span class="n">transform</span> <span class="o">=</span> <span class="n">format_transform_for_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="o">.</span><span class="n">_map_single</span><span class="p">)</span>
+    <span class="n">kwargs_for_fingerprint</span> <span class="o">=</span> <span class="n">format_kwargs_for_fingerprint</span><span class="p">(</span>
+        <span class="n">ds</span><span class="o">.</span><span class="n">_map_single</span><span class="p">,</span> <span class="p">(),</span> <span class="n">dataset_kwargs</span><span class="p">)</span>
+    <span class="n">kwargs_for_fingerprint</span><span class="p">[</span><span class="s1">&#39;fingerprint_name&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;new_fingerprint&#39;</span>
+    <span class="n">new_fingerprint</span> <span class="o">=</span> <span class="n">update_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="o">.</span><span class="n">_fingerprint</span><span class="p">,</span> <span class="n">transform</span><span class="p">,</span>
+                                         <span class="n">kwargs_for_fingerprint</span><span class="p">)</span>
+    <span class="n">validate_fingerprint</span><span class="p">(</span><span class="n">new_fingerprint</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">new_fingerprint</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/lazy_loader.html b/_modules/data_juicer/utils/lazy_loader.html
new file mode 100644
index 000000000..bd0b06989
--- /dev/null
+++ b/_modules/data_juicer/utils/lazy_loader.html
@@ -0,0 +1,184 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.lazy_loader &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.lazy_loader</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.lazy_loader</h1><div class="highlight"><pre>
+<span></span><span class="sd">&quot;&quot;&quot;A LazyLoader class.&quot;&quot;&quot;</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">importlib</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">inspect</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">types</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.auto_install_utils</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span><span class="n">AutoInstaller</span><span class="p">,</span>
+                                                  <span class="n">_is_module_installed</span><span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.availability_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">_torch_check_and_set</span>
+
+<span class="n">current_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">realpath</span><span class="p">(</span><span class="vm">__file__</span><span class="p">))</span>
+<span class="n">science_file_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">current_path</span><span class="p">,</span>
+                                 <span class="s1">&#39;../../environments/science_requires.txt&#39;</span><span class="p">)</span>
+<span class="n">dist_file_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">current_path</span><span class="p">,</span>
+                              <span class="s1">&#39;../../environments/dist_requires.txt&#39;</span><span class="p">)</span>
+<span class="n">AUTOINSTALL</span> <span class="o">=</span> <span class="n">AutoInstaller</span><span class="p">([</span><span class="n">science_file_path</span><span class="p">,</span> <span class="n">dist_file_path</span><span class="p">])</span>
+
+
+<div class="viewcode-block" id="LazyLoader">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">LazyLoader</span><span class="p">(</span><span class="n">types</span><span class="o">.</span><span class="n">ModuleType</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Lazily import a module, mainly to avoid pulling in large dependencies.</span>
+<span class="sd">    `contrib`, and `ffmpeg` are examples of modules that are large and not</span>
+<span class="sd">    always needed, and this allows them to only be loaded when they are used.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># The lint error here is incorrect.</span>
+<div class="viewcode-block" id="LazyLoader.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">local_name</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">auto_install</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_local_name</span> <span class="o">=</span> <span class="n">local_name</span>
+        <span class="c1"># get last frame in the stack</span>
+        <span class="n">frame</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span>
+        <span class="c1"># get the globals of module who calls LazyLoader</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_parent_module_globals</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_globals</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">auto_install</span> <span class="o">=</span> <span class="n">auto_install</span>
+
+        <span class="nb">super</span><span class="p">(</span><span class="n">LazyLoader</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">name</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_load</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="c1"># Auto install if necessary</span>
+        <span class="n">module_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_install</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">_is_module_installed</span><span class="p">(</span><span class="n">module_name</span><span class="p">):</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Module &#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s2">&#39; not installed or fully installed.&quot;</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Auto installing &#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s2">&#39; ...&quot;</span><span class="p">)</span>
+            <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">install</span><span class="p">(</span><span class="n">module_name</span><span class="p">)</span>
+        <span class="c1"># check for torch</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;torch&#39;</span><span class="p">:</span>
+            <span class="n">_torch_check_and_set</span><span class="p">()</span>
+        <span class="c1"># Import the target module and insert it into the parent&#39;s namespace</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="n">importlib</span><span class="o">.</span><span class="n">import_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_parent_module_globals</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">_local_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">module</span>
+
+        <span class="c1"># Update this object&#39;s dict so that if someone keeps a reference to the</span>
+        <span class="c1">#   LazyLoader, lookups are efficient (__getattr__ is only called on</span>
+        <span class="c1">#   lookups that fail).</span>
+        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">module</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">module</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__getattr__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">item</span><span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+        <span class="k">return</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">module</span><span class="p">,</span> <span class="n">item</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__dir__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+        <span class="k">return</span> <span class="nb">dir</span><span class="p">(</span><span class="n">module</span><span class="p">)</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/logger_utils.html b/_modules/data_juicer/utils/logger_utils.html
new file mode 100644
index 000000000..0a89e8def
--- /dev/null
+++ b/_modules/data_juicer/utils/logger_utils.html
@@ -0,0 +1,307 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.logger_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.logger_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.logger_utils</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some codes here are adapted from</span>
+<span class="c1"># https://github.com/MegEngine/YOLOX/blob/main/yolox/utils/logger.py</span>
+
+<span class="c1"># Copyright 2021 Megvii, Base Detection</span>
+<span class="c1">#</span>
+<span class="c1">#    Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
+<span class="c1">#    you may not use this file except in compliance with the License.</span>
+<span class="c1">#    You may obtain a copy of the License at</span>
+<span class="c1">#</span>
+<span class="c1">#        http://www.apache.org/licenses/LICENSE-2.0</span>
+<span class="c1">#</span>
+<span class="c1">#    Unless required by applicable law or agreed to in writing, software</span>
+<span class="c1">#    distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
+<span class="c1">#    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
+<span class="c1">#    See the License for the specific language governing permissions and</span>
+<span class="c1">#    limitations under the License.</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">inspect</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">sys</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">io</span><span class="w"> </span><span class="kn">import</span> <span class="n">StringIO</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru._file_sink</span><span class="w"> </span><span class="kn">import</span> <span class="n">FileSink</span>
+
+<span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="get_caller_name">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get caller name by depth.</span>
+
+<span class="sd">    :param depth: depth of caller context, use 0 for caller depth.</span>
+<span class="sd">    :return: module name of the caller</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># the following logic is a little bit faster than inspect.stack() logic</span>
+    <span class="n">frame</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span>
+    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">depth</span><span class="p">):</span>
+        <span class="n">frame</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_back</span>
+
+    <span class="k">return</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_globals</span><span class="p">[</span><span class="s1">&#39;__name__&#39;</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="StreamToLoguru">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">StreamToLoguru</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Stream object that redirects writes to a logger instance.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="StreamToLoguru.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span> <span class="n">caller_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;datasets&#39;</span><span class="p">,</span> <span class="s1">&#39;logging&#39;</span><span class="p">)):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
+<span class="sd">        :param caller_names: caller names of redirected module.</span>
+<span class="sd">                    Default value: (apex, pycocotools).</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">level</span> <span class="o">=</span> <span class="n">level</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span> <span class="o">=</span> <span class="n">caller_names</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span> <span class="o">=</span> <span class="n">StringIO</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">BUFFER_SIZE</span> <span class="o">=</span> <span class="mi">1024</span> <span class="o">*</span> <span class="mi">1024</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.write">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">buf</span><span class="p">):</span>
+        <span class="n">full_name</span> <span class="o">=</span> <span class="n">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">module_name</span> <span class="o">=</span> <span class="n">full_name</span><span class="o">.</span><span class="n">rsplit</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">maxsplit</span><span class="o">=-</span><span class="mi">1</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">buf</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">buf</span><span class="o">.</span><span class="n">rstrip</span><span class="p">()</span><span class="o">.</span><span class="n">splitlines</span><span class="p">():</span>
+                <span class="c1"># use caller level log</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">level</span><span class="p">,</span> <span class="n">line</span><span class="o">.</span><span class="n">rstrip</span><span class="p">())</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># sys.__stdout__.write(buf)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">raw</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">buf</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">truncate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">BUFFER_SIZE</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.getvalue">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">getvalue</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">getvalue</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.flush">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">flush</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">flush</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="redirect_sys_output">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">redirect_sys_output</span><span class="p">(</span><span class="n">log_level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Redirect stdout/stderr to loguru with log level.</span>
+
+<span class="sd">    :param log_level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">redirect_logger</span> <span class="o">=</span> <span class="n">StreamToLoguru</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">log_level</span><span class="p">)</span>
+    <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span> <span class="o">=</span> <span class="n">redirect_logger</span>
+    <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="n">redirect_logger</span></div>
+
+
+
+<div class="viewcode-block" id="get_log_file_path">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_log_file_path</span><span class="p">():</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the path to the location of the log file.</span>
+
+<span class="sd">    :return: a location of log file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">handler</span> <span class="ow">in</span> <span class="n">logger</span><span class="o">.</span><span class="n">_core</span><span class="o">.</span><span class="n">handlers</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="p">,</span> <span class="n">FileSink</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="o">.</span><span class="n">_file</span><span class="o">.</span><span class="n">name</span></div>
+
+
+
+<div class="viewcode-block" id="setup_logger">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">setup_logger</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span>
+                 <span class="n">distributed_rank</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                 <span class="n">filename</span><span class="o">=</span><span class="s1">&#39;log.txt&#39;</span><span class="p">,</span>
+                 <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;o&#39;</span><span class="p">,</span>
+                 <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span>
+                 <span class="n">redirect</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Setup logger for training and testing.</span>
+
+<span class="sd">    :param save_dir: location to save log file</span>
+<span class="sd">    :param distributed_rank: device rank when multi-gpu environment</span>
+<span class="sd">    :param filename: log file name to save</span>
+<span class="sd">    :param mode: log file write mode, `append` or `override`. default is `o`.</span>
+<span class="sd">    :param level: log severity level. It&#39;s &quot;INFO&quot; in default.</span>
+<span class="sd">    :param redirect: whether to redirect system output</span>
+<span class="sd">    :return: logger instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">global</span> <span class="n">LOGGER_SETUP</span>
+
+    <span class="k">if</span> <span class="n">LOGGER_SETUP</span><span class="p">:</span>
+        <span class="k">return</span>
+
+    <span class="n">loguru_format</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;&lt;green&gt;{time:YYYY-MM-DD HH:mm:ss}&lt;/green&gt; | &#39;</span>
+        <span class="s1">&#39;&lt;level&gt;</span><span class="si">{level: &lt;8}</span><span class="s1">&lt;/level&gt; | &#39;</span>
+        <span class="s1">&#39;&lt;cyan&gt;</span><span class="si">{name}</span><span class="s1">&lt;/cyan&gt;:&lt;cyan&gt;</span><span class="si">{line}</span><span class="s1">&lt;/cyan&gt; - &lt;level&gt;</span><span class="si">{message}</span><span class="s1">&lt;/level&gt;&#39;</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">remove</span><span class="p">()</span>
+    <span class="n">save_file</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s1">&#39;o&#39;</span> <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">save_file</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
+
+    <span class="c1"># only keep logger in rank0 process</span>
+    <span class="k">if</span> <span class="n">distributed_rank</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
+            <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span><span class="p">,</span>
+            <span class="nb">format</span><span class="o">=</span><span class="n">loguru_format</span><span class="p">,</span>
+            <span class="n">level</span><span class="o">=</span><span class="n">level</span><span class="p">,</span>
+            <span class="n">enqueue</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
+
+    <span class="c1"># redirect stdout/stderr to loguru</span>
+    <span class="k">if</span> <span class="n">redirect</span><span class="p">:</span>
+        <span class="n">redirect_sys_output</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+    <span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">True</span></div>
+
+
+
+<div class="viewcode-block" id="HiddenPrints">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">HiddenPrints</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that hide the outputs within this range.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Store the original standard output and redirect the standard output to</span>
+<span class="sd">        null when entering this range.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">devnull</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Close the redirected standard output and restore it when exiting from</span>
+<span class="sd">        this range.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/mm_utils.html b/_modules/data_juicer/utils/mm_utils.html
new file mode 100644
index 000000000..d62a812de
--- /dev/null
+++ b/_modules/data_juicer/utils/mm_utils.html
@@ -0,0 +1,1165 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.mm_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.mm_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.mm_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">base64</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">datetime</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">io</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">re</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">shutil</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">av</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">np</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">datasets</span><span class="w"> </span><span class="kn">import</span> <span class="n">Audio</span><span class="p">,</span> <span class="n">Image</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pydantic</span><span class="w"> </span><span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.constant</span><span class="w"> </span><span class="kn">import</span> <span class="n">DEFAULT_PREFIX</span><span class="p">,</span> <span class="n">Fields</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.file_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">add_suffix_to_filename</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="c1"># suppress most warnings from av</span>
+<span class="n">av</span><span class="o">.</span><span class="n">logging</span><span class="o">.</span><span class="n">set_level</span><span class="p">(</span><span class="n">av</span><span class="o">.</span><span class="n">logging</span><span class="o">.</span><span class="n">PANIC</span><span class="p">)</span>
+
+
+<span class="c1"># A class to keep special tokens for multimodal information in the texts</span>
+<span class="c1"># The tokens in this class can be updated by corresponding arguments in config</span>
+<div class="viewcode-block" id="SpecialTokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">SpecialTokens</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1"># modality</span>
+    <span class="n">image</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">image&gt;&#39;</span>
+    <span class="n">audio</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">audio&gt;&#39;</span>
+    <span class="n">video</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">video&gt;&#39;</span>
+
+    <span class="c1"># others</span>
+    <span class="n">eoc</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;|</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">eoc|&gt;&#39;</span></div>
+
+
+
+<span class="n">AV_STREAM_THREAD_TYPE</span> <span class="o">=</span> <span class="s1">&#39;AUTO&#39;</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    av stream thread type support &quot;SLICE&quot;, &quot;FRAME&quot;, &quot;AUTO&quot;.</span>
+
+<span class="sd">        &quot;SLICE&quot;: Decode more than one part of a single frame at once</span>
+
+<span class="sd">        &quot;FRAME&quot;: Decode more than one frame at once</span>
+
+<span class="sd">        &quot;AUTO&quot;: Using both &quot;FRAME&quot; and &quot;SLICE&quot;</span>
+<span class="sd">        AUTO is faster when there are no video latency.</span>
+
+<span class="sd">&quot;&quot;&quot;</span>
+
+
+<div class="viewcode-block" id="get_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_special_tokens</span><span class="p">():</span>
+    <span class="n">special_token_dict</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">key</span><span class="p">:</span> <span class="n">value</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">SpecialTokens</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">key</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;__&#39;</span><span class="p">)</span>
+    <span class="p">}</span>
+    <span class="k">return</span> <span class="n">special_token_dict</span></div>
+
+
+
+<div class="viewcode-block" id="remove_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">remove_special_tokens</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+    <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">get_special_tokens</span><span class="p">()</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
+        <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">text</span></div>
+
+
+
+<div class="viewcode-block" id="remove_non_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">remove_non_special_tokens</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+    <span class="n">special_tokens</span> <span class="o">=</span> <span class="n">get_special_tokens</span><span class="p">()</span><span class="o">.</span><span class="n">values</span><span class="p">()</span>
+    <span class="n">patterns</span> <span class="o">=</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">token</span><span class="p">)</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">special_tokens</span><span class="p">)</span>
+    <span class="n">special_tokens_found</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">patterns</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+    <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">special_tokens_found</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">text_with_only_special_tokens</span></div>
+
+
+
+<div class="viewcode-block" id="load_data_with_context">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span> <span class="n">loaded_data_keys</span><span class="p">,</span> <span class="n">load_func</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The unified loading function with contexts for multimodal data.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">data</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">loaded_data_key</span> <span class="ow">in</span> <span class="n">loaded_data_keys</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">loaded_data_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="c1"># load from context</span>
+            <span class="n">data</span><span class="p">[</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">loaded_data_key</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_data_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+                <span class="c1"># avoid load the same data</span>
+                <span class="n">data_item</span> <span class="o">=</span> <span class="n">load_func</span><span class="p">(</span><span class="n">loaded_data_key</span><span class="p">)</span>
+                <span class="n">data</span><span class="p">[</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">data_item</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="c1"># store the data into context</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">data_item</span>
+    <span class="k">return</span> <span class="n">sample</span><span class="p">,</span> <span class="n">data</span></div>
+
+
+
+<span class="c1"># Images</span>
+<div class="viewcode-block" id="load_images">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_images">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_images</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_image</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_images_byte">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_images_byte</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_image_byte</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_image">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_image">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_image</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="n">img_feature</span> <span class="o">=</span> <span class="n">Image</span><span class="p">()</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">img_feature</span><span class="o">.</span><span class="n">decode_example</span><span class="p">(</span><span class="n">img_feature</span><span class="o">.</span><span class="n">encode_example</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">img</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="s1">&#39;RGB&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">img</span></div>
+
+
+
+<div class="viewcode-block" id="load_image_byte">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_image_byte</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">image_file</span><span class="p">:</span>
+        <span class="n">image_data</span> <span class="o">=</span> <span class="n">image_file</span><span class="o">.</span><span class="n">read</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">image_data</span></div>
+
+
+
+<div class="viewcode-block" id="image_path_to_base64">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">image_path_to_base64</span><span class="p">(</span><span class="n">image_path</span><span class="p">):</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">image_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">image_file</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">base64</span><span class="o">.</span><span class="n">b64encode</span><span class="p">(</span><span class="n">image_file</span><span class="o">.</span><span class="n">read</span><span class="p">())</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="image_byte_to_base64">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">image_byte_to_base64</span><span class="p">(</span><span class="n">image_byte</span><span class="p">):</span>
+    <span class="k">return</span> <span class="n">base64</span><span class="o">.</span><span class="n">b64encode</span><span class="p">(</span><span class="n">image_byte</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="pil_to_opencv">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">pil_to_opencv</span><span class="p">(</span><span class="n">pil_image</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">pil_image</span><span class="o">.</span><span class="n">mode</span> <span class="o">!=</span> <span class="s1">&#39;RGB&#39;</span><span class="p">:</span>
+        <span class="n">pil_image</span> <span class="o">=</span> <span class="n">pil_image</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="s1">&#39;RGB&#39;</span><span class="p">)</span>
+    <span class="n">numpy_image</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">pil_image</span><span class="p">)</span>
+    <span class="c1"># RGB to BGR</span>
+    <span class="n">opencv_image</span> <span class="o">=</span> <span class="n">numpy_image</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">opencv_image</span></div>
+
+
+
+<div class="viewcode-block" id="detect_faces">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">detector</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_kwargs</span><span class="p">):</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">pil_to_opencv</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+    <span class="n">gray</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cvtColor</span><span class="p">(</span><span class="n">img</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">COLOR_BGR2GRAY</span><span class="p">)</span>
+    <span class="n">dets</span> <span class="o">=</span> <span class="n">detector</span><span class="o">.</span><span class="n">detectMultiScale</span><span class="p">(</span><span class="n">gray</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_kwargs</span><span class="p">)</span>
+    <span class="n">rectified_dets</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span> <span class="ow">in</span> <span class="n">dets</span><span class="p">:</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="n">y</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">y</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="n">w</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">w</span><span class="p">,</span> <span class="n">image</span><span class="o">.</span><span class="n">width</span> <span class="o">-</span> <span class="n">x</span><span class="p">)</span>
+        <span class="n">h</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">h</span><span class="p">,</span> <span class="n">image</span><span class="o">.</span><span class="n">height</span> <span class="o">-</span> <span class="n">y</span><span class="p">)</span>
+        <span class="n">rectified_dets</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">])</span>
+    <span class="k">return</span> <span class="n">rectified_dets</span></div>
+
+
+
+<div class="viewcode-block" id="get_file_size">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_file_size</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+    <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">getsize</span><span class="p">(</span><span class="n">path</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="iou">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.iou">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">iou</span><span class="p">(</span><span class="n">box1</span><span class="p">,</span> <span class="n">box2</span><span class="p">):</span>
+    <span class="n">x1_min</span><span class="p">,</span> <span class="n">y1_min</span><span class="p">,</span> <span class="n">x1_max</span><span class="p">,</span> <span class="n">y1_max</span> <span class="o">=</span> <span class="n">box1</span>
+    <span class="n">x2_min</span><span class="p">,</span> <span class="n">y2_min</span><span class="p">,</span> <span class="n">x2_max</span><span class="p">,</span> <span class="n">y2_max</span> <span class="o">=</span> <span class="n">box2</span>
+    <span class="n">area1</span> <span class="o">=</span> <span class="p">(</span><span class="n">x1_max</span> <span class="o">-</span> <span class="n">x1_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">y1_max</span> <span class="o">-</span> <span class="n">y1_min</span><span class="p">)</span>
+    <span class="n">area2</span> <span class="o">=</span> <span class="p">(</span><span class="n">x2_max</span> <span class="o">-</span> <span class="n">x2_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">y2_max</span> <span class="o">-</span> <span class="n">y2_min</span><span class="p">)</span>
+    <span class="n">ix_min</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">x1_min</span><span class="p">,</span> <span class="n">x2_min</span><span class="p">)</span>
+    <span class="n">ix_max</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">x1_max</span><span class="p">,</span> <span class="n">x2_max</span><span class="p">)</span>
+    <span class="n">iy_min</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">y1_min</span><span class="p">,</span> <span class="n">y2_min</span><span class="p">)</span>
+    <span class="n">iy_max</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">y1_max</span><span class="p">,</span> <span class="n">y2_max</span><span class="p">)</span>
+    <span class="n">intersection</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="p">(</span><span class="n">ix_max</span> <span class="o">-</span> <span class="n">ix_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">iy_max</span> <span class="o">-</span> <span class="n">iy_min</span><span class="p">))</span>
+    <span class="n">union</span> <span class="o">=</span> <span class="n">area1</span> <span class="o">+</span> <span class="n">area2</span> <span class="o">-</span> <span class="n">intersection</span>
+    <span class="k">return</span> <span class="mf">1.0</span> <span class="o">*</span> <span class="n">intersection</span> <span class="o">/</span> <span class="n">union</span></div>
+
+
+
+<div class="viewcode-block" id="calculate_resized_dimensions">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">calculate_resized_dimensions</span><span class="p">(</span>
+        <span class="n">original_size</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">],</span>
+        <span class="n">target_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">]],</span>
+        <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">divisible</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Resize dimensions based on specified constraints.</span>
+
+<span class="sd">    :param original_size: The original dimensions as (height, width).</span>
+<span class="sd">    :param target_size: Desired target size; can be a single integer</span>
+<span class="sd">        (short edge) or a tuple (height, width).</span>
+<span class="sd">    :param max_length: Maximum allowed length for the longer edge.</span>
+<span class="sd">    :param divisible: The number that the dimensions must be divisible by.</span>
+<span class="sd">    :return: Resized dimensions as (height, width).</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">height</span><span class="p">,</span> <span class="n">width</span> <span class="o">=</span> <span class="n">original_size</span>
+    <span class="n">short_edge</span><span class="p">,</span> <span class="n">long_edge</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">((</span><span class="n">width</span><span class="p">,</span> <span class="n">height</span><span class="p">))</span>
+
+    <span class="c1"># Normalize target_size to a tuple</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">target_size</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="n">target_size</span> <span class="o">=</span> <span class="p">(</span><span class="n">target_size</span><span class="p">,</span> <span class="p">)</span>
+
+    <span class="c1"># Initialize new dimensions</span>
+    <span class="k">if</span> <span class="n">target_size</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>  <span class="c1"># Only the smaller edge is specified</span>
+            <span class="n">new_short_edge</span> <span class="o">=</span> <span class="n">target_size</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">new_long_edge</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">new_short_edge</span> <span class="o">*</span> <span class="n">long_edge</span> <span class="o">/</span> <span class="n">short_edge</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>  <span class="c1"># Both dimensions are specified</span>
+            <span class="n">new_short_edge</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span>
+            <span class="n">new_long_edge</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>  <span class="c1"># No change</span>
+        <span class="n">new_short_edge</span><span class="p">,</span> <span class="n">new_long_edge</span> <span class="o">=</span> <span class="n">short_edge</span><span class="p">,</span> <span class="n">long_edge</span>
+
+    <span class="c1"># Enforce maximum length constraint</span>
+    <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">new_long_edge</span> <span class="o">&gt;</span> <span class="n">max_length</span><span class="p">:</span>
+        <span class="n">scaling_factor</span> <span class="o">=</span> <span class="n">max_length</span> <span class="o">/</span> <span class="n">new_long_edge</span>
+        <span class="n">new_short_edge</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">new_short_edge</span> <span class="o">*</span> <span class="n">scaling_factor</span><span class="p">)</span>
+        <span class="n">new_long_edge</span> <span class="o">=</span> <span class="n">max_length</span>
+
+    <span class="c1"># Determine final dimensions based on original orientation</span>
+    <span class="n">resized_dimensions</span> <span class="o">=</span> <span class="p">((</span><span class="n">new_short_edge</span><span class="p">,</span>
+                           <span class="n">new_long_edge</span><span class="p">)</span> <span class="k">if</span> <span class="n">width</span> <span class="o">&lt;=</span> <span class="n">height</span> <span class="k">else</span>
+                          <span class="p">(</span><span class="n">new_long_edge</span><span class="p">,</span> <span class="n">new_short_edge</span><span class="p">))</span>
+
+    <span class="c1"># Ensure final dimensions are divisible by the specified value</span>
+    <span class="n">resized_dimensions</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span>
+        <span class="nb">int</span><span class="p">(</span><span class="n">dim</span> <span class="o">/</span> <span class="n">divisible</span><span class="p">)</span> <span class="o">*</span> <span class="n">divisible</span> <span class="k">for</span> <span class="n">dim</span> <span class="ow">in</span> <span class="n">resized_dimensions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">resized_dimensions</span></div>
+
+
+
+<span class="c1"># Audios</span>
+<div class="viewcode-block" id="load_audios">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_audios</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_audio</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_audio">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_audio</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">sampling_rate</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+    <span class="n">aud_feature</span> <span class="o">=</span> <span class="n">Audio</span><span class="p">(</span><span class="n">sampling_rate</span><span class="p">)</span>
+    <span class="n">aud</span> <span class="o">=</span> <span class="n">aud_feature</span><span class="o">.</span><span class="n">decode_example</span><span class="p">(</span><span class="n">aud_feature</span><span class="o">.</span><span class="n">encode_example</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">aud</span><span class="p">[</span><span class="s1">&#39;array&#39;</span><span class="p">],</span> <span class="n">aud</span><span class="p">[</span><span class="s1">&#39;sampling_rate&#39;</span><span class="p">]</span></div>
+
+
+
+<span class="c1"># Videos</span>
+<div class="viewcode-block" id="load_videos">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_videos</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_video</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_video">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">load_video</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Load a video using its path.</span>
+
+<span class="sd">    :param path: the path to this video.</span>
+<span class="sd">    :param mode: the loading mode. It&#39;s &quot;r&quot; in default.</span>
+<span class="sd">    :return: a container object form PyAv library, which contains all streams</span>
+<span class="sd">        in this video (video/audio/...) and can be used to decode these streams</span>
+<span class="sd">        to frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="ow">and</span> <span class="s1">&#39;r&#39;</span> <span class="ow">in</span> <span class="n">mode</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Video [</span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">] does not exist!&#39;</span><span class="p">)</span>
+    <span class="n">container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">mode</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">container</span></div>
+
+
+
+<div class="viewcode-block" id="get_video_duration">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_video_duration</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+                       <span class="n">video_stream_index</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the video&#39;s duration from the container</span>
+
+<span class="sd">    :param input_video: the container object form PyAv library, which</span>
+<span class="sd">        contains all streams in this video (video/audio/...) and can be used</span>
+<span class="sd">        to decode these streams to frames.</span>
+<span class="sd">    :param video_stream_index: the video stream index to decode,</span>
+<span class="sd">        default set to 0.</span>
+<span class="sd">    :return: duration of the video in second</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="n">video_stream_index</span><span class="p">]</span>
+    <span class="n">duration</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span> <span class="o">*</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">duration</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="get_decoded_frames_from_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_decoded_frames_from_video</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">video_stream_index</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the video&#39;s frames from the container</span>
+
+<span class="sd">    :param input_video: the container object form PyAv library, which</span>
+<span class="sd">        contains all streams in this video (video/audio/...) and can be used</span>
+<span class="sd">        to decode these streams to frames.</span>
+<span class="sd">    :param video_stream_index: the video stream index to decode,</span>
+<span class="sd">        default set to 0.</span>
+<span class="sd">    :return: an iterator of all the frames of the video</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="n">stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="n">video_stream_index</span><span class="p">]</span>
+    <span class="c1"># use &quot;AUTO&quot; thread_type for faster decode</span>
+    <span class="n">stream</span><span class="o">.</span><span class="n">thread_type</span> <span class="o">=</span> <span class="n">AV_STREAM_THREAD_TYPE</span>
+    <span class="k">return</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">stream</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="cut_video_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">cut_video_by_seconds</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">output_video</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="n">start_seconds</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">end_seconds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Cut a video into several segments by times in second.</span>
+
+<span class="sd">    :param input_video: the path to input video or the video container.</span>
+<span class="sd">    :param output_video: the path to output video.</span>
+<span class="sd">    :param start_seconds: the start time in second.</span>
+<span class="sd">    :param end_seconds: the end time in second. If it&#39;s None, this function</span>
+<span class="sd">        will cut the video from the start_seconds to the end of the video.</span>
+<span class="sd">    :return: a boolean flag indicating whether the video was successfully</span>
+<span class="sd">        cut or not.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># open the original video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+
+    <span class="c1"># create the output video</span>
+    <span class="k">if</span> <span class="n">output_video</span><span class="p">:</span>
+        <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">io</span><span class="o">.</span><span class="n">BytesIO</span><span class="p">()</span>
+        <span class="n">output_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;w&#39;</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">)</span>
+
+    <span class="c1"># add the video stream into the output video according to input video</span>
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">codec_name</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">name</span>
+    <span class="n">fps</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">base_rate</span>
+    <span class="n">output_video_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">codec_name</span><span class="p">,</span> <span class="n">rate</span><span class="o">=</span><span class="n">fps</span><span class="p">)</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">pix_fmt</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">pix_fmt</span>
+
+    <span class="c1"># add the audio stream into the output video with template of input audio</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">template</span><span class="o">=</span><span class="n">input_audio_stream</span><span class="p">)</span>
+
+    <span class="c1"># seek to the start time, time must be in microsecond if no</span>
+    <span class="c1"># stream is specified</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">*</span> <span class="mi">1000000</span><span class="p">),</span>
+                   <span class="n">any_frame</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                   <span class="n">backward</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># copy the video and audio streams until the end time</span>
+    <span class="c1"># NOTICE: for different streams, the time have to be converted to be</span>
+    <span class="c1"># in the corresponding time base.</span>
+    <span class="n">video_at_the_end</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="c1"># compute the start/end pts for video/audio streams</span>
+    <span class="n">video_start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+    <span class="n">video_end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+                     <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">input_audio_stream</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">audio_start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+        <span class="n">audio_end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span>
+                         <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">,</span> <span class="n">input_audio_stream</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;video&#39;</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">video_start_pts</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">video_end_pts</span><span class="p">:</span>
+                    <span class="c1"># continue to check until the next P/I frame</span>
+                    <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pict_type</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;P&#39;</span><span class="p">,</span> <span class="s1">&#39;I&#39;</span><span class="p">}:</span>
+                        <span class="n">video_at_the_end</span> <span class="o">=</span> <span class="kc">True</span>
+                        <span class="k">break</span>
+                    <span class="k">continue</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">video_start_pts</span>  <span class="c1"># timestamp alignment</span>
+                <span class="k">for</span> <span class="n">inter_packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">inter_packet</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;audio&#39;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">packet</span><span class="o">.</span><span class="n">dts</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">audio_start_pts</span> <span class="ow">or</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">audio_end_pts</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">audio_start_pts</span>
+            <span class="n">packet</span><span class="o">.</span><span class="n">dts</span> <span class="o">-=</span> <span class="n">audio_start_pts</span>
+            <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">video_at_the_end</span><span class="p">:</span>
+            <span class="k">break</span>
+
+    <span class="c1"># flush all packets</span>
+    <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">():</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+    <span class="c1"># close the output videos</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">output_video</span><span class="p">:</span>
+        <span class="n">output_buffer</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">output_buffer</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">output_video</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;This video could not be successfully cut in &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">start_seconds</span><span class="si">}</span><span class="s1">, </span><span class="si">{</span><span class="n">end_seconds</span><span class="si">}</span><span class="s1">] seconds. &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;Please set more accurate parameters.&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">output_video</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="process_each_frame">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">process_each_frame</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+                       <span class="n">output_video</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">frame_func</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Process each frame in video by replacing each frame by</span>
+<span class="sd">    `frame_func(frame)`.</span>
+
+<span class="sd">    :param input_video: the path to input video or the video container.</span>
+<span class="sd">    :param output_video: the path to output video.</span>
+<span class="sd">    :param frame_func: a function which inputs a frame and outputs another</span>
+<span class="sd">        frame.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">frame_modified</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="c1"># open the original video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+
+    <span class="c1"># create the output video</span>
+    <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+
+    <span class="c1"># add the audio stream into the output video with template of input audio</span>
+    <span class="k">for</span> <span class="n">input_audio_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">:</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">template</span><span class="o">=</span><span class="n">input_audio_stream</span><span class="p">)</span>
+
+    <span class="c1"># add the video stream into the output video according to input video</span>
+    <span class="k">for</span> <span class="n">input_video_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">:</span>
+        <span class="c1"># search from the beginning</span>
+        <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">backward</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">any_frame</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="n">codec_name</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">name</span>
+        <span class="n">fps</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">base_rate</span>
+        <span class="n">output_video_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">codec_name</span><span class="p">,</span> <span class="n">rate</span><span class="o">=</span><span class="n">fps</span><span class="p">)</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">pix_fmt</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">pix_fmt</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+
+        <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                <span class="n">new_frame</span> <span class="o">=</span> <span class="n">frame_func</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">new_frame</span> <span class="o">!=</span> <span class="n">frame</span><span class="p">:</span>
+                    <span class="n">frame_modified</span> <span class="o">=</span> <span class="kc">True</span>
+                <span class="c1"># for resize cases</span>
+                <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">new_frame</span><span class="o">.</span><span class="n">width</span>
+                <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">new_frame</span><span class="o">.</span><span class="n">height</span>
+                <span class="k">for</span> <span class="n">inter_packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">new_frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">inter_packet</span><span class="p">)</span>
+
+        <span class="c1"># flush all packets</span>
+        <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">():</span>
+            <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+    <span class="c1"># close the output videos</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">frame_modified</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">output_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">input_video</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="k">else</span> <span class="n">input_video</span><span class="o">.</span><span class="n">name</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="extract_key_frames_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">extract_key_frames_by_seconds</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract key frames by seconds.</span>
+<span class="sd">        :param input_video: input video path or av.container.InputContainer.</span>
+<span class="sd">        :param duration: duration of each video split in seconds.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="n">duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+
+    <span class="n">all_key_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span>
+                                             <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="k">if</span> <span class="n">output_buffer</span><span class="p">:</span>
+            <span class="n">cut_inp_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
+            <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+            <span class="n">all_key_frames</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">all_key_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_key_frames">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">extract_key_frames</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">]):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract key frames from the input video. If there is no keyframes in the</span>
+<span class="sd">    video, return the first frame.</span>
+
+<span class="sd">    :param input_video: input video path or container.</span>
+<span class="sd">    :return: a list of key frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">key_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">ori_skip_method</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span>
+    <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span> <span class="o">=</span> <span class="s1">&#39;NONKEY&#39;</span>
+    <span class="c1"># restore to the beginning of the video</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+        <span class="n">key_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+    <span class="c1"># restore to the original skip_type</span>
+    <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span> <span class="o">=</span> <span class="n">ori_skip_method</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;No keyframes in this video [</span><span class="si">{</span><span class="n">input_video</span><span class="si">}</span><span class="s1">]. Return &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;the first frame instead.&#39;</span><span class="p">)</span>
+        <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+            <span class="n">key_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+            <span class="k">break</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">key_frames</span></div>
+
+
+
+<div class="viewcode-block" id="get_key_frame_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_key_frame_seconds</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span>
+                                             <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">]):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get seconds of key frames in the input video.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="n">ts</span> <span class="o">=</span> <span class="p">[</span><span class="nb">float</span><span class="p">(</span><span class="n">f</span><span class="o">.</span><span class="n">pts</span> <span class="o">*</span> <span class="n">f</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">key_frames</span><span class="p">]</span>
+    <span class="n">ts</span><span class="o">.</span><span class="n">sort</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">ts</span></div>
+
+
+
+<div class="viewcode-block" id="extract_video_frames_uniformly_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">extract_video_frames_uniformly_by_seconds</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span><span class="p">,</span>
+        <span class="n">duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract video frames uniformly by seconds.</span>
+<span class="sd">        :param input_video: input video path or av.container.InputContainer.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            each video split by duration.</span>
+<span class="sd">        :param duration: duration of each video split in seconds.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="n">duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+
+    <span class="n">all_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span>
+                                             <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="k">if</span> <span class="n">output_buffer</span><span class="p">:</span>
+            <span class="n">cut_inp_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
+            <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">,</span>
+                                                        <span class="n">frame_num</span><span class="o">=</span><span class="n">frame_num</span><span class="p">)</span>
+            <span class="n">all_frames</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">all_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_video_frames_uniformly">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">extract_video_frames_uniformly</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract a number of video frames uniformly within the video duration.</span>
+
+<span class="sd">    :param input_video: input video path or container.</span>
+<span class="sd">    :param frame_num: The number of frames to be extracted. If it&#39;s 1, only the</span>
+<span class="sd">        middle frame will be extracted. If it&#39;s 2, only the first and the last</span>
+<span class="sd">        frames will be extracted. If it&#39;s larger than 2, in addition to the</span>
+<span class="sd">        first and the last frames, other frames will be extracted uniformly</span>
+<span class="sd">        within the video duration.</span>
+<span class="sd">    :return: a list of extracted frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">total_frame_num</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">frames</span>
+    <span class="k">if</span> <span class="n">total_frame_num</span> <span class="o">&lt;</span> <span class="n">frame_num</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Number of frames to be extracted is larger than the &#39;</span>
+                       <span class="s1">&#39;total number of frames in this video. Set it to the &#39;</span>
+                       <span class="s1">&#39;total number of frames.&#39;</span><span class="p">)</span>
+        <span class="n">frame_num</span> <span class="o">=</span> <span class="n">total_frame_num</span>
+    <span class="c1"># calculate the frame seconds to be extracted</span>
+    <span class="n">duration</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span> <span class="o">*</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">if</span> <span class="n">frame_num</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="n">extract_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="n">duration</span> <span class="o">/</span> <span class="mi">2</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="n">duration</span> <span class="o">/</span> <span class="p">(</span><span class="n">frame_num</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">extract_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span> <span class="o">*</span> <span class="n">i</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">frame_num</span><span class="p">)]</span>
+
+    <span class="c1"># group durations according to the seconds of key frames</span>
+    <span class="n">key_frame_seconds</span> <span class="o">=</span> <span class="n">get_key_frame_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">if</span> <span class="mf">0.0</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">key_frame_seconds</span><span class="p">:</span>
+        <span class="n">key_frame_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="mf">0.0</span><span class="p">]</span> <span class="o">+</span> <span class="n">key_frame_seconds</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frame_seconds</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="n">second_groups</span> <span class="o">=</span> <span class="p">[</span><span class="n">extract_seconds</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">second_groups</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">idx</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">group_id</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">curr_group</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">curr_upper_bound_ts</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">group_id</span> <span class="o">+</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="k">while</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">):</span>
+            <span class="n">curr_ts</span> <span class="o">=</span> <span class="n">extract_seconds</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">curr_ts</span> <span class="o">&lt;</span> <span class="n">curr_upper_bound_ts</span><span class="p">:</span>
+                <span class="n">curr_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_ts</span><span class="p">)</span>
+                <span class="n">idx</span> <span class="o">+=</span> <span class="mi">1</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span>
+                <span class="n">group_id</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">curr_group</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">if</span> <span class="n">group_id</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frame_seconds</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="k">break</span>
+                <span class="n">curr_upper_bound_ts</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">group_id</span> <span class="o">+</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">):</span>
+            <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">[</span><span class="n">idx</span><span class="p">:])</span>
+
+    <span class="c1"># extract frames by their group&#39;s key frames</span>
+    <span class="n">extracted_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">time_base</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">second_group</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">second_groups</span><span class="p">):</span>
+        <span class="n">key_frame_second</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">continue</span>
+        <span class="k">if</span> <span class="n">key_frame_second</span> <span class="o">==</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="c1"># search from the beginning</span>
+            <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">search_idx</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;=</span> <span class="n">curr_pts</span><span class="p">:</span>
+                    <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                    <span class="n">search_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="k">if</span> <span class="n">search_idx</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">):</span>
+                        <span class="n">find_all</span> <span class="o">=</span> <span class="kc">True</span>
+                        <span class="k">break</span>
+                    <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">find_all</span> <span class="ow">and</span> <span class="n">frame</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="c1"># add the last frame</span>
+                <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># search from a key frame</span>
+            <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">key_frame_second</span> <span class="o">*</span> <span class="mf">1e6</span><span class="p">))</span>
+            <span class="n">search_idx</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                    <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;=</span> <span class="n">curr_pts</span><span class="p">:</span>
+                        <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                        <span class="n">search_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="n">search_idx</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">):</span>
+                            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">True</span>
+                            <span class="k">break</span>
+                        <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+                <span class="k">if</span> <span class="n">find_all</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">find_all</span> <span class="ow">and</span> <span class="n">frame</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="c1"># add the last frame</span>
+                <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+
+    <span class="c1"># if the container is opened in this function, close it</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">extracted_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_audio_from_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">extract_audio_from_video</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">output_audio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">start_seconds</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+    <span class="n">end_seconds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">stream_indexes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract audio data for the given video.</span>
+
+<span class="sd">    :param input_video: input video. Can be a video path or an</span>
+<span class="sd">        av.container.InputContainer.</span>
+<span class="sd">    :param output_audio: output audio path. If it&#39;s None, the audio data won&#39;t</span>
+<span class="sd">        be written to file. If stream_indexes is not None, it will output</span>
+<span class="sd">        multiple audio files with original filename and the stream indexes.</span>
+<span class="sd">        Default: None.</span>
+<span class="sd">    :param start_seconds: the start seconds to extract audio data. Default: 0,</span>
+<span class="sd">        which means extract from the start of the video.</span>
+<span class="sd">    :param end_seconds: the end seconds to stop extracting audio data. If it&#39;s</span>
+<span class="sd">        None, the extraction won&#39;t stop until the end of the video. Default:</span>
+<span class="sd">        None.</span>
+<span class="sd">    :param stream_indexes: there might be multiple audio streams in the video,</span>
+<span class="sd">        so we need to decide which audio streams with stream_indexes will be</span>
+<span class="sd">        extracted. It can be a single index or a list of indexes. If it&#39;s None,</span>
+<span class="sd">        all audio streams will be extracted. Default: None.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">input_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">input_container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_audio</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">output_audio</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;mp3&#39;</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Now we only support export the audios into `mp3` &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;format, but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">output_audio</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="c1"># no audios in the video</span>
+    <span class="n">num_audio_streams</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">input_container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">stream_indexes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">num_audio_streams</span><span class="p">))</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">stream_indexes</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="p">[</span><span class="n">stream_indexes</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="c1"># remove indexes that are larger than the total number of audio streams</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">stream_indexes</span> <span class="k">if</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="n">num_audio_streams</span>
+        <span class="p">]</span>
+    <span class="c1"># no valid expected audio streams</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_stream_indexes</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[],</span> <span class="p">[],</span> <span class="n">valid_stream_indexes</span>
+
+    <span class="n">audio_data_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">audio_sampling_rate_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">valid_stream_indexes</span><span class="p">:</span>
+        <span class="c1"># read the current audio stream</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="n">input_container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+        <span class="c1"># get the sampling rate</span>
+        <span class="n">audio_sampling_rate_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="mi">1</span> <span class="o">/</span>
+                                              <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="c1"># if the output_audio is not None, prepare the output audio file</span>
+            <span class="n">this_output_audio</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">output_audio</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">idx</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">this_output_audio</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+            <span class="n">output_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="s1">&#39;mp3&#39;</span><span class="p">)</span>
+
+        <span class="c1"># get the start/end pts</span>
+        <span class="n">start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+        <span class="n">end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span>
+                   <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span> <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="n">audio_data</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">input_container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_audio_stream</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">frame</span><span class="o">.</span><span class="n">dts</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">start_pts</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">end_pts</span> <span class="ow">and</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">end_pts</span><span class="p">:</span>
+                <span class="k">break</span>
+            <span class="c1"># get frame data</span>
+            <span class="n">array</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">to_ndarray</span><span class="p">()[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">audio_data</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">array</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+                <span class="c1"># compute the right pts when writing an audio file</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">start_pts</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">dts</span> <span class="o">-=</span> <span class="n">start_pts</span>
+                <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+        <span class="c1"># flush</span>
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="kc">None</span><span class="p">):</span>
+                <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">input_container</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+        <span class="n">audio_data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">audio_data</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="n">audio_data_list</span><span class="p">,</span> <span class="n">audio_sampling_rate_list</span><span class="p">,</span> <span class="n">valid_stream_indexes</span></div>
+
+
+
+<span class="c1"># Others</span>
+<div class="viewcode-block" id="size_to_bytes">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">size_to_bytes</span><span class="p">(</span><span class="n">size</span><span class="p">):</span>
+    <span class="n">alphabets_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">char</span> <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">size</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalpha</span><span class="p">()]</span>
+    <span class="n">numbers_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">char</span> <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">size</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isdigit</span><span class="p">()]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">numbers_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Your input `size` does not contain numbers: </span><span class="si">{</span><span class="n">size</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="n">size_numbers</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">numbers_list</span><span class="p">)))</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">alphabets_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># by default, if users do not specify the units, the number will be</span>
+        <span class="c1"># regarded as in bytes</span>
+        <span class="k">return</span> <span class="n">size_numbers</span>
+
+    <span class="n">suffix</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">alphabets_list</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+    <span class="k">if</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;kb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;kib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">10</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;mb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;mib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">20</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;gb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;gib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">30</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;tb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;tib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">40</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;pb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;pib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">50</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;eb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;eib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">60</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;zb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;zib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">70</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;yb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;yib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">80</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;You specified unidentifiable unit: </span><span class="si">{</span><span class="n">suffix</span><span class="si">}</span><span class="s1">, &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;expected in [KB, MB, GB, TB, PB, EB, ZB, YB, &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;KiB, MiB, GiB, TiB, PiB, EiB, ZiB, YiB], &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;(case insensitive, counted by *Bytes*).&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="insert_texts_after_placeholders">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">insert_texts_after_placeholders</span><span class="p">(</span><span class="n">original_string</span><span class="p">,</span>
+                                    <span class="n">placeholders</span><span class="p">,</span>
+                                    <span class="n">new_texts</span><span class="p">,</span>
+                                    <span class="n">delimiter_in_insert_pos</span><span class="o">=</span><span class="s1">&#39; &#39;</span><span class="p">):</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholders</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">new_texts</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s1">&#39;The number of placeholders and new_texts must be equal&#39;</span><span class="p">)</span>
+
+    <span class="n">modified_string</span> <span class="o">=</span> <span class="n">original_string</span>
+    <span class="k">for</span> <span class="n">placeholder</span><span class="p">,</span> <span class="n">new_text</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">placeholders</span><span class="p">,</span> <span class="n">new_texts</span><span class="p">):</span>
+        <span class="c1"># Find the index of the next occurrence of the placeholder</span>
+        <span class="n">index</span> <span class="o">=</span> <span class="n">modified_string</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">placeholder</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">index</span> <span class="o">==</span> <span class="o">-</span><span class="mi">1</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Placeholder &#39;</span><span class="si">{</span><span class="n">placeholder</span><span class="si">}</span><span class="s2">&#39; not found in the string&quot;</span><span class="p">)</span>
+        <span class="c1"># Insert new_text at the found index position</span>
+        <span class="n">modified_string</span> <span class="o">=</span> \
+            <span class="n">modified_string</span><span class="p">[:</span><span class="n">index</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholder</span><span class="p">)]</span> <span class="o">+</span> \
+            <span class="n">delimiter_in_insert_pos</span> <span class="o">+</span> \
+            <span class="n">new_text</span> <span class="o">+</span> \
+            <span class="n">delimiter_in_insert_pos</span> <span class="o">+</span> \
+            <span class="n">modified_string</span><span class="p">[</span><span class="n">index</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholder</span><span class="p">):]</span>
+
+    <span class="k">return</span> <span class="n">modified_string</span></div>
+
+
+
+<div class="viewcode-block" id="timecode_string_to_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">timecode_string_to_seconds</span><span class="p">(</span><span class="n">timecode</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Convert a timecode string to the float seconds.</span>
+
+<span class="sd">    :param timecode: the input timecode string. Must in &quot;HH:MM:SS.fff(fff)&quot;</span>
+<span class="sd">        format.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># parse the timecode string</span>
+    <span class="n">dt</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">timecode</span><span class="p">,</span> <span class="s1">&#39;%H:%M:%S.</span><span class="si">%f</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="c1"># compute the start/end time in second</span>
+    <span class="n">pts</span> <span class="o">=</span> <span class="n">dt</span><span class="o">.</span><span class="n">hour</span> <span class="o">*</span> <span class="mi">3600</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">minute</span> <span class="o">*</span> <span class="mi">60</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">second</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">microsecond</span> <span class="o">/</span> <span class="mf">1e6</span>
+    <span class="k">return</span> <span class="n">pts</span></div>
+
+
+
+<div class="viewcode-block" id="parse_string_to_roi">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">parse_string_to_roi</span><span class="p">(</span><span class="n">roi_string</span><span class="p">,</span> <span class="n">roi_type</span><span class="o">=</span><span class="s1">&#39;pixel&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Convert a roi string to four number x1, y1, x2, y2 stand for the region.</span>
+<span class="sd">    When the type is &#39;pixel&#39;, (x1, y1), (x2, y2) are the locations of pixels</span>
+<span class="sd">    in the top left corner and the bottom right corner respectively. If the</span>
+<span class="sd">    roi_type is &#39;ratio&#39;, the coordinates are normalized by wights and</span>
+<span class="sd">    heights.</span>
+
+<span class="sd">    :param roi_string: the roi string</span>
+<span class="sd">    :patam roi_type: the roi string type</span>
+<span class="sd">    return tuple of (x1, y1, x2, y2) if roi_string is valid, else None</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">roi_string</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;^\s*[\[\(]?\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*[\]\)]?\s*$&#39;</span>  <span class="c1"># noqa: E501</span>
+
+    <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">roi_string</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">roi_type</span> <span class="o">==</span> <span class="s1">&#39;pixel&#39;</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">num</span><span class="p">)</span> <span class="k">for</span> <span class="n">num</span> <span class="ow">in</span> <span class="n">match</span><span class="o">.</span><span class="n">groups</span><span class="p">())</span>
+        <span class="k">elif</span> <span class="n">roi_type</span> <span class="o">==</span> <span class="s1">&#39;ratio&#39;</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="mf">1.0</span><span class="p">,</span> <span class="nb">float</span><span class="p">(</span><span class="n">num</span><span class="p">))</span> <span class="k">for</span> <span class="n">num</span> <span class="ow">in</span> <span class="n">match</span><span class="o">.</span><span class="n">groups</span><span class="p">())</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;The roi_type must be &quot;pixel&quot; or &quot;ratio&quot;.&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+            <span class="s1">&#39;The roi_string must be four no negative numbers in the &#39;</span>
+            <span class="s1">&#39;format of &quot;x1, y1, x2, y2&quot;, &quot;(x1, y1, x2, y2)&quot;, or &#39;</span>
+            <span class="s1">&#39;&quot;[x1, y1, x2, y2]&quot;.&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="close_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.close_video">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">:</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Close the video stream and container to avoid memory leak.</span>
+
+<span class="sd">    :param container: the video container.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">video_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">:</span>
+        <span class="n">video_stream</span><span class="o">.</span><span class="n">close</span><span class="p">(</span><span class="n">strict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">close</span><span class="p">()</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/model_utils.html b/_modules/data_juicer/utils/model_utils.html
new file mode 100644
index 000000000..eedc519bb
--- /dev/null
+++ b/_modules/data_juicer/utils/model_utils.html
@@ -0,0 +1,984 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.model_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.model_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.model_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">fnmatch</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">inspect</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">functools</span><span class="w"> </span><span class="kn">import</span> <span class="n">partial</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pickle</span><span class="w"> </span><span class="kn">import</span> <span class="n">UnpicklingError</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">typing</span><span class="w"> </span><span class="kn">import</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">httpx</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">multiprocess</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">mp</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">wget</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">cuda_device_count</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.common_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">nested_access</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">AUTOINSTALL</span><span class="p">,</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">.cache_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">DATA_JUICER_MODELS_CACHE</span> <span class="k">as</span> <span class="n">DJMC</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+<span class="n">nn</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nn&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.nn&#39;</span><span class="p">)</span>
+<span class="n">fasttext</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;fasttext&#39;</span><span class="p">,</span> <span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
+<span class="n">sentencepiece</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+<span class="n">kenlm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;kenlm&#39;</span><span class="p">,</span> <span class="s1">&#39;kenlm&#39;</span><span class="p">)</span>
+<span class="n">nltk</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
+<span class="n">aes_pre</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;aes_pre&#39;</span><span class="p">,</span> <span class="s1">&#39;aesthetics_predictor&#39;</span><span class="p">)</span>
+<span class="n">vllm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span> <span class="s1">&#39;vllm&#39;</span><span class="p">)</span>
+<span class="n">diffusers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;diffusers&#39;</span><span class="p">,</span> <span class="s1">&#39;diffusers&#39;</span><span class="p">)</span>
+<span class="n">ram</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ram&#39;</span><span class="p">,</span> <span class="s1">&#39;ram.models&#39;</span><span class="p">)</span>
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+<span class="n">openai</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;openai&#39;</span><span class="p">,</span> <span class="s1">&#39;openai&#39;</span><span class="p">)</span>
+
+<span class="n">MODEL_ZOO</span> <span class="o">=</span> <span class="p">{}</span>
+
+<span class="c1"># Default cached models links for downloading</span>
+<span class="n">MODEL_LINKS</span> <span class="o">=</span> <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span> \
+               <span class="s1">&#39;data_juicer/models/&#39;</span>
+
+<span class="c1"># Backup cached models links for downloading</span>
+<span class="n">BACKUP_MODEL_LINKS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="c1"># language identification model from fasttext</span>
+    <span class="s1">&#39;lid.176.bin&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dl.fbaipublicfiles.com/fasttext/supervised-models/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># tokenizer and language model for English from sentencepiece and KenLM</span>
+    <span class="s1">&#39;*.sp.model&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
+    <span class="s1">&#39;*.arpa.bin&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># sentence split model from nltk punkt</span>
+    <span class="s1">&#39;punkt.*.pickle&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/models/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># ram</span>
+    <span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;http://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/data_juicer/models/&#39;</span>
+    <span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="get_backup_model_link">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_backup_model_link</span><span class="p">(</span><span class="n">model_name</span><span class="p">):</span>
+    <span class="k">for</span> <span class="n">pattern</span><span class="p">,</span> <span class="n">url</span> <span class="ow">in</span> <span class="n">BACKUP_MODEL_LINKS</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="n">fnmatch</span><span class="o">.</span><span class="n">fnmatch</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">pattern</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">url</span>
+    <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="check_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.check_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check whether a model exists in DATA_JUICER_MODELS_CACHE.</span>
+<span class="sd">    If exists, return its full path.</span>
+<span class="sd">    Else, download it from cached models links.</span>
+
+<span class="sd">    :param model_name: a specified model name</span>
+<span class="sd">    :param force: Whether to download model forcefully or not, Sometimes</span>
+<span class="sd">        the model file maybe incomplete for some reason, so need to</span>
+<span class="sd">        download again forcefully.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># check for local model</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">force</span> <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_name</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">model_name</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">DJMC</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">DJMC</span><span class="p">)</span>
+
+    <span class="c1"># check if the specified model exists. If it does not exist, download it</span>
+    <span class="n">cached_model_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DJMC</span><span class="p">,</span> <span class="n">model_name</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">force</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">cached_model_path</span><span class="p">):</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">cached_model_path</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">cached_model_path</span><span class="si">}</span><span class="s1">] is invalid. Forcing download...&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">cached_model_path</span><span class="si">}</span><span class="s1">] is not found. Downloading...&#39;</span><span class="p">)</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">MODEL_LINKS</span><span class="p">,</span> <span class="n">model_name</span><span class="p">)</span>
+            <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">model_link</span><span class="p">,</span> <span class="n">cached_model_path</span><span class="p">)</span>
+        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">backup_model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                    <span class="n">get_backup_model_link</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="n">model_name</span><span class="p">)</span>
+                <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">backup_model_link</span><span class="p">,</span> <span class="n">cached_model_path</span><span class="p">)</span>
+            <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;Downloading model [</span><span class="si">{</span><span class="n">model_name</span><span class="si">}</span><span class="s1">] error. &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;Please retry later or download it into </span><span class="si">{</span><span class="n">DJMC</span><span class="si">}</span><span class="s1"> &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;manually from </span><span class="si">{</span><span class="n">model_link</span><span class="si">}</span><span class="s1"> or </span><span class="si">{</span><span class="n">backup_model_link</span><span class="si">}</span><span class="s1"> &#39;</span><span class="p">)</span>
+                <span class="n">exit</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">cached_model_path</span></div>
+
+
+
+<div class="viewcode-block" id="APIModel">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.APIModel">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">APIModel</span><span class="p">:</span>
+
+<div class="viewcode-block" id="APIModel.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">endpoint</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">response_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initializes an instance of the APIModel class.</span>
+
+<span class="sd">        :param model: The name of the model to be used for making API</span>
+<span class="sd">            calls. This should correspond to a valid model identifier</span>
+<span class="sd">            recognized by the API server.</span>
+<span class="sd">        :param endpoint: The URL endpoint for the API. If provided as a</span>
+<span class="sd">            relative path, it will be appended to the base URL (defined by the</span>
+<span class="sd">            `OPENAI_BASE_URL` environment variable or through an additional</span>
+<span class="sd">            `base_url` parameter). Defaults to &#39;/chat/completions&#39; for</span>
+<span class="sd">            OpenAI compatibility.</span>
+<span class="sd">        :param response_path: A dot-separated string specifying the path to</span>
+<span class="sd">            extract the desired content from the API response. The default</span>
+<span class="sd">            value is &#39;choices.0.message.content&#39;, which corresponds to the</span>
+<span class="sd">            typical structure of an OpenAI API response.</span>
+<span class="sd">        :param kwargs: Additional keyword arguments for configuring the</span>
+<span class="sd">            internal OpenAI client.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">endpoint</span> <span class="o">=</span> <span class="n">endpoint</span> <span class="ow">or</span> <span class="s1">&#39;/chat/completions&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_path</span> <span class="o">=</span> <span class="n">response_path</span> <span class="ow">or</span> <span class="s1">&#39;choices.0.message.content&#39;</span>
+
+        <span class="n">client_args</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_filter_arguments</span><span class="p">(</span><span class="n">openai</span><span class="o">.</span><span class="n">OpenAI</span><span class="p">,</span> <span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_client</span> <span class="o">=</span> <span class="n">openai</span><span class="o">.</span><span class="n">OpenAI</span><span class="p">(</span><span class="o">**</span><span class="n">client_args</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Sends messages to the configured API model and returns the parsed</span>
+<span class="sd">        response content.</span>
+
+<span class="sd">        :param messages: A list of message dictionaries to send to the API.</span>
+<span class="sd">                         Each message should have a &#39;role&#39; (e.g., &#39;user&#39;,</span>
+<span class="sd">                         &#39;assistant&#39;) and &#39;content&#39; (the message text).</span>
+<span class="sd">        :param kwargs: Additional parameters for the API call.</span>
+<span class="sd">        :return: The parsed response content from the API call, or an empty</span>
+<span class="sd">            string if an error occurs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">body</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;messages&#39;</span><span class="p">:</span> <span class="n">messages</span><span class="p">,</span>
+            <span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+        <span class="p">}</span>
+        <span class="n">body</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">stream</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;stream&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+        <span class="n">stream_cls</span> <span class="o">=</span> <span class="n">openai</span><span class="o">.</span><span class="n">Stream</span><span class="p">[</span><span class="n">openai</span><span class="o">.</span><span class="n">types</span><span class="o">.</span><span class="n">chat</span><span class="o">.</span><span class="n">ChatCompletionChunk</span><span class="p">]</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_client</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">endpoint</span><span class="p">,</span>
+                                         <span class="n">body</span><span class="o">=</span><span class="n">body</span><span class="p">,</span>
+                                         <span class="n">cast_to</span><span class="o">=</span><span class="n">httpx</span><span class="o">.</span><span class="n">Response</span><span class="p">,</span>
+                                         <span class="n">stream</span><span class="o">=</span><span class="n">stream</span><span class="p">,</span>
+                                         <span class="n">stream_cls</span><span class="o">=</span><span class="n">stream_cls</span><span class="p">)</span>
+            <span class="n">result</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">nested_access</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_path</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">exception</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+            <span class="k">return</span> <span class="s1">&#39;&#39;</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">_filter_arguments</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="n">args_dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Filters and returns only the valid arguments for a given function</span>
+<span class="sd">        signature.</span>
+
+<span class="sd">        :param func: The function or callable to inspect.</span>
+<span class="sd">        :param args_dict: A dictionary of argument names and values to filter.</span>
+<span class="sd">        :return: A dictionary containing only the arguments that match the</span>
+<span class="sd">                 function&#39;s signature, preserving any **kwargs if applicable.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">signature</span><span class="p">(</span><span class="n">func</span><span class="p">)</span><span class="o">.</span><span class="n">parameters</span>
+        <span class="n">filtered_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">param</span> <span class="ow">in</span> <span class="n">params</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="c1"># If **kwargs is found, return without change</span>
+            <span class="k">if</span> <span class="n">param</span><span class="o">.</span><span class="n">kind</span> <span class="o">==</span> <span class="n">inspect</span><span class="o">.</span><span class="n">Parameter</span><span class="o">.</span><span class="n">VAR_KEYWORD</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">args_dict</span>
+            <span class="c1"># Collect valid parameters</span>
+            <span class="k">if</span> <span class="n">name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;self&#39;</span><span class="p">,</span> <span class="s1">&#39;cls&#39;</span><span class="p">}</span> <span class="ow">and</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">args_dict</span><span class="p">:</span>
+                <span class="n">filtered_args</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">args_dict</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">filtered_args</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_api_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_api_model</span><span class="p">(</span><span class="n">model</span><span class="p">,</span>
+                      <span class="o">*</span><span class="p">,</span>
+                      <span class="n">endpoint</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="n">response_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="n">return_processor</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                      <span class="n">processor_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Creates a callable API model for interacting with OpenAI-compatible API.</span>
+<span class="sd">    The callable supports custom response parsing and works with proxy servers</span>
+<span class="sd">    that may be incompatible.</span>
+
+<span class="sd">    :param model: The name of the model to interact with.</span>
+<span class="sd">    :param endpoint: The URL endpoint for the API. If provided as a relative</span>
+<span class="sd">        path, it will be appended to the base URL (defined by the</span>
+<span class="sd">        `OPENAI_BASE_URL` environment variable or through an additional</span>
+<span class="sd">        `base_url` parameter). By default, it is set to</span>
+<span class="sd">        &#39;/chat/completions&#39; for OpenAI compatibility.</span>
+<span class="sd">    :param response_path: The dot-separated  path to extract desired content</span>
+<span class="sd">        from the API response. Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">    :param return_processor: A boolean flag indicating whether to return a</span>
+<span class="sd">        processor along with the model. The processor can be used for tasks</span>
+<span class="sd">        like tokenization or encoding. Defaults to False.</span>
+<span class="sd">    :param processor_config: A dictionary containing configuration parameters</span>
+<span class="sd">        for initializing a Hugging Face processor. It is only relevant if</span>
+<span class="sd">        `return_processor` is set to True.</span>
+<span class="sd">    :param model_params: Additional parameters for configuring the API model.</span>
+<span class="sd">    :return: A callable APIModel instance, and optionally a processor</span>
+<span class="sd">        if `return_processor` is True.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">client</span> <span class="o">=</span> <span class="n">APIModel</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                      <span class="n">endpoint</span><span class="o">=</span><span class="n">endpoint</span><span class="p">,</span>
+                      <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_processor</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">client</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">get_processor</span><span class="p">():</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span><span class="w"> </span><span class="nn">tiktoken</span>
+            <span class="k">return</span> <span class="n">tiktoken</span><span class="o">.</span><span class="n">encoding_for_model</span><span class="p">(</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span><span class="w"> </span><span class="nn">dashscope</span>
+            <span class="k">return</span> <span class="n">dashscope</span><span class="o">.</span><span class="n">get_tokenizer</span><span class="p">(</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">model</span><span class="p">,</span> <span class="o">**</span><span class="n">processor_config</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">processor</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s1">&#39;Failed to initialize the processor. Please check the following:</span><span class="se">\n</span><span class="s1">&#39;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For OpenAI models: Install &#39;tiktoken&#39; via `pip install tiktoken`.</span><span class="se">\n</span><span class="s2">&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For DashScope models: Install both &#39;dashscope&#39; and &#39;tiktoken&#39; via `pip install dashscope tiktoken`.</span><span class="se">\n</span><span class="s2">&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For custom models: Use the &#39;processor_config&#39; parameter to configure a Hugging Face processor.&quot;</span>  <span class="c1"># noqa: E501</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">processor_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> \
+            <span class="s1">&#39;pretrained_model_name_or_path&#39;</span> <span class="ow">in</span> <span class="n">processor_config</span><span class="p">:</span>
+        <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="o">**</span><span class="n">processor_config</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">processor</span> <span class="o">=</span> <span class="n">get_processor</span><span class="p">()</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">client</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_diffusion_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_diffusion_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">diffusion_type</span><span class="p">,</span>
+                            <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Prepare and load an Diffusion model from HuggingFace.</span>
+
+<span class="sd">        :param pretrained_model_name_or_path: input Diffusion model name</span>
+<span class="sd">            or local path to the model</span>
+<span class="sd">        :param diffusion_type: the use of the diffusion model. It can be</span>
+<span class="sd">            &#39;image2image&#39;, &#39;text2image&#39;, &#39;inpainting&#39;</span>
+<span class="sd">        :return: a Diffusion model.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">diffusion_type_to_pipeline</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;image2image&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForImage2Image</span><span class="p">,</span>
+        <span class="s1">&#39;text2image&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForText2Image</span><span class="p">,</span>
+        <span class="s1">&#39;inpainting&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForInpainting</span>
+    <span class="p">}</span>
+
+    <span class="k">if</span> <span class="n">diffusion_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">diffusion_type_to_pipeline</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;Not support </span><span class="si">{</span><span class="n">diffusion_type</span><span class="si">}</span><span class="s1"> diffusion_type for diffusion &#39;</span>
+            <span class="s1">&#39;model. Can only be one of &#39;</span>
+            <span class="s1">&#39;[&quot;image2image&quot;, &quot;text2image&quot;, &quot;inpainting&quot;].&#39;</span><span class="p">)</span>
+
+    <span class="n">pipeline</span> <span class="o">=</span> <span class="n">diffusion_type_to_pipeline</span><span class="p">[</span><span class="n">diffusion_type</span><span class="p">]</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">pipeline</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                     <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_fasttext_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_fasttext_model</span><span class="p">(</span><span class="n">model_name</span><span class="o">=</span><span class="s1">&#39;lid.176.bin&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a fasttext model.</span>
+
+<span class="sd">    :param model_name: input model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading fasttext language identification model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">ft_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_huggingface_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_huggingface_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                              <span class="o">*</span><span class="p">,</span>
+                              <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                              <span class="n">return_pipe</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                              <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;text-generation&#39;</span><span class="p">,</span>
+                              <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a HuggingFace model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :param return_pipe: whether to wrap model into pipeline</span>
+<span class="sd">    :param model_params: model initialization parameters.</span>
+<span class="sd">    :return: a tuple of (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># require torch for transformer model</span>
+    <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;torch&#39;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s1">&#39;auto_map&#39;</span><span class="p">):</span>
+            <span class="n">class_name</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">k</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">config</span><span class="o">.</span><span class="n">auto_map</span> <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;AutoModel&#39;</span><span class="p">)),</span>
+                <span class="s1">&#39;AutoModel&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># TODO: What happens if more than one</span>
+            <span class="n">class_name</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">architectures</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="n">model_class</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">transformers</span><span class="p">,</span> <span class="n">class_name</span><span class="p">)</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_class</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                            <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">return_pipe</span><span class="p">:</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizerBase</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">SequenceFeatureExtractor</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;feature_extractor&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">BaseImageProcessor</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;image_processor&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="n">pipe</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">pipeline</span><span class="p">(</span><span class="n">task</span><span class="o">=</span><span class="n">pipe_task</span><span class="p">,</span>
+                                         <span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                                         <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+                                         <span class="o">**</span><span class="n">pipe_params</span><span class="p">)</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">pipe</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span> <span class="k">if</span> <span class="n">return_model</span> <span class="k">else</span> <span class="n">processor</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_kenlm_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_kenlm_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span> <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.arpa.bin&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a kenlm model.</span>
+
+<span class="sd">    :param model_name: input model name in formatting syntax.</span>
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading kenlm language model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                                  <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">kenlm_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_nltk_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_nltk_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span> <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;punkt.</span><span class="si">{}</span><span class="s1">.pickle&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a nltk punkt model.</span>
+
+<span class="sd">    :param model_name: input model name in formatting syntax</span>
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="n">nltk_to_punkt</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;en&#39;</span><span class="p">:</span> <span class="s1">&#39;english&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;fr&#39;</span><span class="p">:</span> <span class="s1">&#39;french&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;pt&#39;</span><span class="p">:</span> <span class="s1">&#39;portuguese&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;es&#39;</span><span class="p">:</span> <span class="s1">&#39;spanish&#39;</span>
+    <span class="p">}</span>
+    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+    <span class="p">),</span> <span class="s1">&#39;lang must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+        <span class="nb">list</span><span class="p">(</span><span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">nltk_to_punkt</span><span class="p">[</span><span class="n">lang</span><span class="p">])</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading nltk punkt split model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                                    <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">nltk_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_opencv_classifier">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_opencv_classifier</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">CascadeClassifier</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_recognizeAnything_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_recognizeAnything_model</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+        <span class="n">input_size</span><span class="o">=</span><span class="mi">384</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load recognizeAnything model.</span>
+
+<span class="sd">    :param model_name: input model name.</span>
+<span class="sd">    :param input_size: the input size of the model.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading recognizeAnything model...&#39;</span><span class="p">)</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">ram_plus</span><span class="p">(</span>
+            <span class="n">pretrained</span><span class="o">=</span><span class="n">check_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">),</span>
+            <span class="n">image_size</span><span class="o">=</span><span class="n">input_size</span><span class="p">,</span>
+            <span class="n">vit</span><span class="o">=</span><span class="s1">&#39;swin_l&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="p">(</span><span class="ne">RuntimeError</span><span class="p">,</span> <span class="n">UnpicklingError</span><span class="p">)</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">ram_plus</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="n">check_model</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                             <span class="n">image_size</span><span class="o">=</span><span class="n">input_size</span><span class="p">,</span>
+                             <span class="n">vit</span><span class="o">=</span><span class="s1">&#39;swin_l&#39;</span><span class="p">)</span>
+    <span class="n">device</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="s1">&#39;cpu&#39;</span><span class="p">)</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_sentencepiece_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a sentencepiece model.</span>
+
+<span class="sd">    :param model_path: input model path</span>
+<span class="sd">    :return: model instance</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading sentencepiece model...&#39;</span><span class="p">)</span>
+    <span class="n">sentencepiece_model</span> <span class="o">=</span> <span class="n">sentencepiece</span><span class="o">.</span><span class="n">SentencePieceProcessor</span><span class="p">()</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">sentencepiece_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_sentencepiece_for_lang">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_sentencepiece_for_lang</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span>
+                                   <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.sp.model&#39;</span><span class="p">,</span>
+                                   <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a sentencepiece model for specific langauge.</span>
+
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :param name_pattern: pattern to render the model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_simple_aesthetics_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_simple_aesthetics_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                    <span class="o">*</span><span class="p">,</span>
+                                    <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                    <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a simple aesthetics model.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :return: a tuple (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">CLIPProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">processor</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">if</span> <span class="s1">&#39;v1&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">:</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV1</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="p">(</span><span class="s1">&#39;v2&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span>
+              <span class="ow">and</span> <span class="s1">&#39;linear&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">):</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV2Linear</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="p">(</span><span class="s1">&#39;v2&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span>
+              <span class="ow">and</span> <span class="s1">&#39;relu&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">):</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV2ReLU</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s1">&#39;Not support </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">))</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_spacy_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_spacy_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span>
+                        <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">_core_web_md-3.7.0&#39;</span><span class="p">,</span>
+                        <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare spacy model for specific language.</span>
+
+<span class="sd">    :param lang: language of sapcy model. Should be one of [&quot;zh&quot;,</span>
+<span class="sd">        &quot;en&quot;]</span>
+<span class="sd">    :return: corresponding spacy model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="kn">import</span><span class="w"> </span><span class="nn">spacy</span>
+
+    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;zh&#39;</span><span class="p">,</span> <span class="s1">&#39;en&#39;</span><span class="p">],</span> <span class="s1">&#39;Diversity only support zh and en&#39;</span>
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Loading spacy model [</span><span class="si">{</span><span class="n">model_name</span><span class="si">}</span><span class="s1">]...&#39;</span><span class="p">)</span>
+    <span class="n">compressed_model</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.tar.gz&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">model_name</span><span class="p">)</span>
+
+    <span class="c1"># decompress the compressed model if it&#39;s not decompressed</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">decompress_model</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">compressed_model_path</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.tar.gz&#39;</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Only .tar.gz files are supported&#39;</span><span class="p">)</span>
+
+        <span class="n">decompressed_model_path</span> <span class="o">=</span> <span class="n">compressed_model_path</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.tar.gz&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">decompressed_model_path</span>
+
+        <span class="n">ver_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">)</span>
+        <span class="n">unver_name</span> <span class="o">=</span> <span class="n">ver_name</span><span class="o">.</span><span class="n">rsplit</span><span class="p">(</span><span class="s1">&#39;-&#39;</span><span class="p">,</span> <span class="n">maxsplit</span><span class="o">=</span><span class="mi">1</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">target_dir_in_archive</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">ver_name</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">unver_name</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">ver_name</span><span class="si">}</span><span class="s1">/&#39;</span>
+
+        <span class="kn">import</span><span class="w"> </span><span class="nn">tarfile</span>
+        <span class="k">with</span> <span class="n">tarfile</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">,</span> <span class="s1">&#39;r:gz&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">tar</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">member</span> <span class="ow">in</span> <span class="n">tar</span><span class="o">.</span><span class="n">getmembers</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">member</span><span class="o">.</span><span class="n">name</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="n">target_dir_in_archive</span><span class="p">):</span>
+                    <span class="c1"># relative path without unnecessary directory levels</span>
+                    <span class="n">relative_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">relpath</span><span class="p">(</span>
+                        <span class="n">member</span><span class="o">.</span><span class="n">name</span><span class="p">,</span> <span class="n">start</span><span class="o">=</span><span class="n">target_dir_in_archive</span><span class="p">)</span>
+                    <span class="n">target_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">,</span>
+                                               <span class="n">relative_path</span><span class="p">)</span>
+
+                    <span class="k">if</span> <span class="n">member</span><span class="o">.</span><span class="n">isfile</span><span class="p">():</span>
+                        <span class="c1"># ensure the directory exists</span>
+                        <span class="n">target_directory</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">target_path</span><span class="p">)</span>
+                        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">target_directory</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="c1"># for files, extract to the specific location</span>
+                        <span class="k">with</span> <span class="n">tar</span><span class="o">.</span><span class="n">extractfile</span><span class="p">(</span><span class="n">member</span><span class="p">)</span> <span class="k">as</span> <span class="n">source</span><span class="p">:</span>
+                            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">target_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">target</span><span class="p">:</span>
+                                <span class="n">target</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">source</span><span class="o">.</span><span class="n">read</span><span class="p">())</span>
+        <span class="k">return</span> <span class="n">decompressed_model_path</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">)))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)))</span>
+    <span class="k">return</span> <span class="n">diversity_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_video_blip_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_video_blip_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                             <span class="o">*</span><span class="p">,</span>
+                             <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                             <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a video-clip model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :param trust_remote_code: passed to transformers</span>
+<span class="sd">    :return: a tuple (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="k">class</span><span class="w"> </span><span class="nc">VideoBlipVisionModel</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">Blip2VisionModel</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;A simple, augmented version of Blip2VisionModel to handle</span>
+<span class="sd">        videos.&quot;&quot;&quot;</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">pixel_values</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">FloatTensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">interpolate_pos_encoding</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span>
+                   <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span><span class="p">]:</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;Flatten `pixel_values` along the batch and time dimension,</span>
+<span class="sd">            pass it through the original vision model,</span>
+<span class="sd">            then unflatten it back.</span>
+
+<span class="sd">            :param pixel_values: a tensor of shape</span>
+<span class="sd">            (batch, channel, time, height, width)</span>
+
+<span class="sd">            :returns:</span>
+<span class="sd">                last_hidden_state: a tensor of shape</span>
+<span class="sd">                (batch, time * seq_len, hidden_size)</span>
+<span class="sd">                pooler_output: a tensor of shape</span>
+<span class="sd">                (batch, time, hidden_size)</span>
+<span class="sd">                hidden_states:</span>
+<span class="sd">                    a tuple of tensors of shape</span>
+<span class="sd">                    (batch, time * seq_len, hidden_size),</span>
+<span class="sd">                    one for the output of the embeddings +</span>
+<span class="sd">                    one for each layer</span>
+<span class="sd">                attentions:</span>
+<span class="sd">                    a tuple of tensors of shape</span>
+<span class="sd">                    (batch, time, num_heads, seq_len, seq_len),</span>
+<span class="sd">                    one for each layer</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+            <span class="k">if</span> <span class="n">pixel_values</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;You have to specify pixel_values&#39;</span><span class="p">)</span>
+
+            <span class="n">batch</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">pixel_values</span><span class="o">.</span><span class="n">size</span><span class="p">()</span>
+
+            <span class="c1"># flatten along the batch and time dimension to create a</span>
+            <span class="c1"># tensor of shape</span>
+            <span class="c1"># (batch * time, channel, height, width)</span>
+            <span class="n">flat_pixel_values</span> <span class="o">=</span> <span class="n">pixel_values</span><span class="o">.</span><span class="n">permute</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span>
+                                                     <span class="mi">4</span><span class="p">)</span><span class="o">.</span><span class="n">flatten</span><span class="p">(</span><span class="n">end_dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+
+            <span class="n">vision_outputs</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span>
+                <span class="n">pixel_values</span><span class="o">=</span><span class="n">flat_pixel_values</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">interpolate_pos_encoding</span><span class="o">=</span><span class="n">interpolate_pos_encoding</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="c1"># now restore the original dimensions</span>
+            <span class="c1"># vision_outputs.last_hidden_state is of shape</span>
+            <span class="c1"># (batch * time, seq_len, hidden_size)</span>
+            <span class="n">seq_len</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">last_hidden_state</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">last_hidden_state</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">last_hidden_state</span><span class="o">.</span><span class="n">view</span><span class="p">(</span>
+                <span class="n">batch</span><span class="p">,</span> <span class="n">time</span> <span class="o">*</span> <span class="n">seq_len</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="c1"># vision_outputs.pooler_output is of shape</span>
+            <span class="c1"># (batch * time, hidden_size)</span>
+            <span class="n">pooler_output</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">pooler_output</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="c1"># hidden_states is a tuple of tensors of shape</span>
+            <span class="c1"># (batch * time, seq_len, hidden_size)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">(</span>
+                <span class="n">hidden</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span> <span class="o">*</span> <span class="n">seq_len</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">hidden</span> <span class="ow">in</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">)</span>
+                             <span class="k">if</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span>
+                             <span class="kc">None</span><span class="p">)</span>
+            <span class="c1"># attentions is a tuple of tensors of shape</span>
+            <span class="c1"># (batch * time, num_heads, seq_len, seq_len)</span>
+            <span class="n">attentions</span> <span class="o">=</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">(</span>
+                <span class="n">hidden</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">hidden</span> <span class="ow">in</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+                          <span class="k">if</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+                    <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">last_hidden_state</span><span class="p">,</span>
+                    <span class="n">pooler_output</span><span class="o">=</span><span class="n">pooler_output</span><span class="p">,</span>
+                    <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                    <span class="n">attentions</span><span class="o">=</span><span class="n">attentions</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">last_hidden_state</span><span class="p">,</span> <span class="n">pooler_output</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">,</span>
+                    <span class="n">attentions</span><span class="p">)</span>
+
+    <span class="k">class</span><span class="w"> </span><span class="nc">VideoBlipForConditionalGeneration</span><span class="p">(</span>
+            <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2ForConditionalGeneration</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2Config</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="c1"># HACK: we call the grandparent super().__init__() to bypass</span>
+            <span class="c1"># transformers.Blip2ForConditionalGeneration.__init__() so we can</span>
+            <span class="c1"># replace self.vision_model</span>
+            <span class="nb">super</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">Blip2ForConditionalGeneration</span><span class="p">,</span>
+                  <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">vision_model</span> <span class="o">=</span> <span class="n">VideoBlipVisionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">vision_config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">query_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span>
+                <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">num_query_tokens</span><span class="p">,</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">))</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">qformer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2QFormerModel</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">language_projection</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">use_decoder_only_language_model</span><span class="p">:</span>
+                <span class="n">language_model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_config</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">language_model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForSeq2SeqLM</span><span class="o">.</span><span class="n">from_config</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">language_model</span> <span class="o">=</span> <span class="n">language_model</span>
+
+            <span class="c1"># Initialize weights and apply final processing</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">post_init</span><span class="p">()</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="n">model_class</span> <span class="o">=</span> <span class="n">VideoBlipForConditionalGeneration</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_class</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                            <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span> <span class="k">if</span> <span class="n">return_model</span> <span class="k">else</span> <span class="n">processor</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_vllm_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_vllm_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a HuggingFace model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param model_params: LLM initialization parameters.</span>
+<span class="sd">    :return: a tuple of (model, tokenizer)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;VLLM_WORKER_MULTIPROC_METHOD&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;spawn&#39;</span>
+
+    <span class="k">if</span> <span class="n">model_params</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;cuda:&#39;</span><span class="p">):</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+    <span class="n">model</span> <span class="o">=</span> <span class="n">vllm</span><span class="o">.</span><span class="n">LLM</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">get_tokenizer</span><span class="p">()</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span></div>
+
+
+
+<span class="n">MODEL_FUNCTION_MAPPING</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;api&#39;</span><span class="p">:</span> <span class="n">prepare_api_model</span><span class="p">,</span>
+    <span class="s1">&#39;diffusion&#39;</span><span class="p">:</span> <span class="n">prepare_diffusion_model</span><span class="p">,</span>
+    <span class="s1">&#39;fasttext&#39;</span><span class="p">:</span> <span class="n">prepare_fasttext_model</span><span class="p">,</span>
+    <span class="s1">&#39;huggingface&#39;</span><span class="p">:</span> <span class="n">prepare_huggingface_model</span><span class="p">,</span>
+    <span class="s1">&#39;kenlm&#39;</span><span class="p">:</span> <span class="n">prepare_kenlm_model</span><span class="p">,</span>
+    <span class="s1">&#39;nltk&#39;</span><span class="p">:</span> <span class="n">prepare_nltk_model</span><span class="p">,</span>
+    <span class="s1">&#39;opencv_classifier&#39;</span><span class="p">:</span> <span class="n">prepare_opencv_classifier</span><span class="p">,</span>
+    <span class="s1">&#39;recognizeAnything&#39;</span><span class="p">:</span> <span class="n">prepare_recognizeAnything_model</span><span class="p">,</span>
+    <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span> <span class="n">prepare_sentencepiece_for_lang</span><span class="p">,</span>
+    <span class="s1">&#39;simple_aesthetics&#39;</span><span class="p">:</span> <span class="n">prepare_simple_aesthetics_model</span><span class="p">,</span>
+    <span class="s1">&#39;spacy&#39;</span><span class="p">:</span> <span class="n">prepare_spacy_model</span><span class="p">,</span>
+    <span class="s1">&#39;video_blip&#39;</span><span class="p">:</span> <span class="n">prepare_video_blip_model</span><span class="p">,</span>
+    <span class="s1">&#39;vllm&#39;</span><span class="p">:</span> <span class="n">prepare_vllm_model</span><span class="p">,</span>
+<span class="p">}</span>
+
+<span class="n">_MODELS_WITHOUT_FILE_LOCK</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;kenlm&#39;</span><span class="p">,</span> <span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="s1">&#39;recognizeAnything&#39;</span><span class="p">,</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span> <span class="s1">&#39;spacy&#39;</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="prepare_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="p">,</span> <span class="o">**</span><span class="n">model_kwargs</span><span class="p">):</span>
+    <span class="k">assert</span> <span class="p">(</span><span class="n">model_type</span> <span class="ow">in</span> <span class="n">MODEL_FUNCTION_MAPPING</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+            <span class="p">),</span> <span class="s1">&#39;model_type must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="nb">list</span><span class="p">(</span><span class="n">MODEL_FUNCTION_MAPPING</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
+    <span class="n">model_func</span> <span class="o">=</span> <span class="n">MODEL_FUNCTION_MAPPING</span><span class="p">[</span><span class="n">model_type</span><span class="p">]</span>
+    <span class="n">model_key</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span><span class="n">model_func</span><span class="p">,</span> <span class="o">**</span><span class="n">model_kwargs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">model_type</span> <span class="ow">in</span> <span class="n">_MODELS_WITHOUT_FILE_LOCK</span><span class="p">:</span>
+        <span class="c1"># initialize once in the main process to safely download model files</span>
+        <span class="n">model_key</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">model_key</span></div>
+
+
+
+<div class="viewcode-block" id="get_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.get_model">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_model</span><span class="p">(</span><span class="n">model_key</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">use_cuda</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="k">global</span> <span class="n">MODEL_ZOO</span>
+    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">model_key</span><span class="si">}</span><span class="s1"> not found in MODEL_ZOO (</span><span class="si">{</span><span class="n">mp</span><span class="o">.</span><span class="n">current_process</span><span class="p">()</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">)&#39;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">use_cuda</span><span class="p">:</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="k">if</span> <span class="n">rank</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="o">%</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="n">device</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;cuda:</span><span class="si">{</span><span class="n">rank</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">device</span> <span class="o">=</span> <span class="s1">&#39;cpu&#39;</span>
+        <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_key</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="free_models">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.free_models">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">free_models</span><span class="p">():</span>
+    <span class="k">global</span> <span class="n">MODEL_ZOO</span>
+    <span class="k">for</span> <span class="n">model_key</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="p">:</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+    <span class="n">MODEL_ZOO</span><span class="o">.</span><span class="n">clear</span><span class="p">()</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/process_utils.html b/_modules/data_juicer/utils/process_utils.html
new file mode 100644
index 000000000..5406c2349
--- /dev/null
+++ b/_modules/data_juicer/utils/process_utils.html
@@ -0,0 +1,237 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.process_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.process_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.process_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">math</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">subprocess</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">multiprocess</span><span class="w"> </span><span class="k">as</span><span class="w"> </span><span class="nn">mp</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">psutil</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">cuda_device_count</span>
+
+
+<div class="viewcode-block" id="setup_mp">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">setup_mp</span><span class="p">(</span><span class="n">method</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">mp</span><span class="o">.</span><span class="n">current_process</span><span class="p">()</span><span class="o">.</span><span class="n">name</span> <span class="o">!=</span> <span class="s1">&#39;MainProcess&#39;</span><span class="p">:</span>
+        <span class="k">return</span>
+
+    <span class="k">if</span> <span class="n">method</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;fork&#39;</span><span class="p">,</span> <span class="s1">&#39;forkserver&#39;</span><span class="p">,</span> <span class="s1">&#39;spawn&#39;</span><span class="p">]</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="p">(</span><span class="nb">list</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">method</span><span class="p">]</span>
+    <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">m</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">method</span><span class="p">]</span>
+
+    <span class="n">env_method</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;MP_START_METHOD&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">env_method</span> <span class="ow">in</span> <span class="n">method</span><span class="p">:</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">env_method</span><span class="p">]</span>
+
+    <span class="n">available_methods</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">get_all_start_methods</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">method</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">available_methods</span><span class="p">:</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Setting multiprocess start method to &#39;</span><span class="si">{</span><span class="n">m</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                <span class="n">mp</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">except</span> <span class="ne">RuntimeError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Error setting multiprocess start method: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">break</span></div>
+
+
+
+<div class="viewcode-block" id="get_min_cuda_memory">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_min_cuda_memory</span><span class="p">():</span>
+    <span class="c1"># get cuda memory info using &quot;nvidia-smi&quot; command</span>
+    <span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
+    <span class="n">min_cuda_memory</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">get_device_properties</span><span class="p">(</span>
+        <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">total_memory</span> <span class="o">/</span> <span class="mi">1024</span><span class="o">**</span><span class="mi">2</span>
+    <span class="n">nvidia_smi_output</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">([</span>
+        <span class="s1">&#39;nvidia-smi&#39;</span><span class="p">,</span> <span class="s1">&#39;--query-gpu=memory.free&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;--format=csv,noheader,nounits&#39;</span>
+    <span class="p">])</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">nvidia_smi_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">):</span>
+        <span class="n">free_memory</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
+        <span class="n">min_cuda_memory</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">min_cuda_memory</span><span class="p">,</span> <span class="n">free_memory</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">min_cuda_memory</span></div>
+
+
+
+<div class="viewcode-block" id="calculate_np">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">calculate_np</span><span class="p">(</span><span class="n">name</span><span class="p">,</span>
+                 <span class="n">mem_required</span><span class="p">,</span>
+                 <span class="n">cpu_required</span><span class="p">,</span>
+                 <span class="n">num_proc</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                 <span class="n">use_cuda</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Calculate the optimum number of processes for the given OP&quot;&quot;&quot;</span>
+    <span class="n">eps</span> <span class="o">=</span> <span class="mf">1e-9</span>  <span class="c1"># about 1 byte</span>
+
+    <span class="k">if</span> <span class="n">use_cuda</span><span class="p">:</span>
+        <span class="n">auto_num_proc</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">cuda_mem_available</span> <span class="o">=</span> <span class="n">get_min_cuda_memory</span><span class="p">()</span> <span class="o">/</span> <span class="mi">1024</span>
+        <span class="k">if</span> <span class="n">mem_required</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The required cuda memory of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;has not been specified. &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;Please specify the mem_required field in the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;config file, or you might encounter CUDA &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;out of memory error. You can reference &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;the mem_required field in the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;config_all.yaml file.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">auto_num_proc</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span>
+                <span class="n">cuda_mem_available</span> <span class="o">/</span> <span class="n">mem_required</span><span class="p">)</span> <span class="o">*</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">cuda_mem_available</span> <span class="o">/</span> <span class="n">mem_required</span> <span class="o">&lt;</span> <span class="mf">1.0</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;The required cuda memory:</span><span class="si">{</span><span class="n">mem_required</span><span class="si">}</span><span class="s1">GB might &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;be more than the available cuda memory:&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">cuda_mem_available</span><span class="si">}</span><span class="s1">GB.&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;This Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] might &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;require more resource to run.&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">auto_num_proc</span> <span class="ow">and</span> <span class="n">num_proc</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">auto_num_proc</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="n">auto_num_proc</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;The given num_proc: </span><span class="si">{</span><span class="n">num_proc</span><span class="si">}</span><span class="s1"> is greater than &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;the value </span><span class="si">{</span><span class="n">auto_num_proc</span><span class="si">}</span><span class="s1"> auto calculated based &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;on the mem_required of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">]. &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;Set the `num_proc` to </span><span class="si">{</span><span class="n">auto_num_proc</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="n">auto_num_proc</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">num_proc</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Both mem_required and num_proc of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] are not set.&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Set the `num_proc` to number of GPUs </span><span class="si">{</span><span class="n">op_proc</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="n">auto_num_proc</span> <span class="k">if</span> <span class="n">auto_num_proc</span> <span class="k">else</span> <span class="n">num_proc</span>
+
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">op_proc</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_proc</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span>
+
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
+        <span class="n">cpu_available</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span>
+        <span class="n">mem_available</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span><span class="o">.</span><span class="n">available</span>
+        <span class="n">mem_available</span> <span class="o">=</span> <span class="n">mem_available</span> <span class="o">/</span> <span class="mi">1024</span><span class="o">**</span><span class="mi">3</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">cpu_available</span> <span class="o">/</span> <span class="n">cpu_required</span> <span class="o">+</span> <span class="n">eps</span><span class="p">))</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span>
+                      <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">mem_available</span> <span class="o">/</span> <span class="p">(</span><span class="n">mem_required</span> <span class="o">+</span> <span class="n">eps</span><span class="p">)))</span>
+        <span class="k">if</span> <span class="n">op_proc</span> <span class="o">&lt;</span> <span class="mf">1.0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The required CPU number:</span><span class="si">{</span><span class="n">cpu_required</span><span class="si">}</span><span class="s1"> &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;and memory:</span><span class="si">{</span><span class="n">mem_required</span><span class="si">}</span><span class="s1">GB might &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;be more than the available CPU:</span><span class="si">{</span><span class="n">cpu_available</span><span class="si">}</span><span class="s1"> &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;and memory :</span><span class="si">{</span><span class="n">mem_available</span><span class="si">}</span><span class="s1">GB.&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;This Op [</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] might &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;require more resource to run.&#39;</span><span class="p">)</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">op_proc</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/registry.html b/_modules/data_juicer/utils/registry.html
new file mode 100644
index 000000000..78416dd55
--- /dev/null
+++ b/_modules/data_juicer/utils/registry.html
@@ -0,0 +1,258 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.registry &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.registry</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.registry</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Copyright (c) Alibaba, Inc. and its affiliates.</span>
+<span class="c1">#</span>
+<span class="c1"># Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
+<span class="c1"># you may not use this file except in compliance with the License.</span>
+<span class="c1"># You may obtain a copy of the License at</span>
+<span class="c1">#</span>
+<span class="c1">#     http://www.apache.org/licenses/LICENSE-2.0</span>
+<span class="c1">#</span>
+<span class="c1"># Unless required by applicable law or agreed to in writing, software</span>
+<span class="c1"># distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
+<span class="c1"># WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
+<span class="c1"># See the License for the specific language governing permissions and</span>
+<span class="c1"># limitations under the License.</span>
+
+<span class="c1"># --------------------------------------------------------</span>
+<span class="c1"># Most of the code here has been modified from:</span>
+<span class="c1">#  https://github.com/modelscope/modelscope/blob/master/modelscope/utils/registry.py</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="Registry">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">Registry</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This class is used to register some modules to registry by a repo</span>
+<span class="sd">    name.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Registry.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param name: a registry repo name</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="o">=</span> <span class="p">{}</span></div>
+
+
+    <span class="nd">@property</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">name</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get name of current registry.</span>
+
+<span class="sd">        :return: name of current registry.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_name</span>
+
+    <span class="nd">@property</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">modules</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get all modules in current registry.</span>
+
+<span class="sd">        :return: a dict storing modules in current registry.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span>
+
+<div class="viewcode-block" id="Registry.list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.list">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Logging the list of module in current registry.&quot;&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="se">\t</span><span class="si">{</span><span class="n">m</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Registry.get">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.get">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">get</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_key</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get module named module_key from in current registry. If not found,</span>
+<span class="sd">        return None.</span>
+
+<span class="sd">        :param module_key: specified module name</span>
+<span class="sd">        :return: module named module_key</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">module_key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">_register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_name</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_cls</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Register module to registry.</span>
+
+<span class="sd">        :param module_name: module name</span>
+<span class="sd">        :param module_cls: module class object</span>
+<span class="sd">        :param force: Whether to override an existing class with the</span>
+<span class="sd">            same name. Default: False.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">module_name</span> <span class="o">=</span> <span class="n">module_cls</span><span class="o">.</span><span class="vm">__name__</span>
+
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">force</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s1"> is already registered in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="p">[</span><span class="n">module_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">module_cls</span>
+        <span class="n">module_cls</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">module_name</span>
+
+<div class="viewcode-block" id="Registry.register_module">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                        <span class="n">module_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                        <span class="n">module_cls</span><span class="p">:</span> <span class="nb">type</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                        <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Register module class object to registry with the specified modulename.</span>
+
+<span class="sd">        :param module_name: module name</span>
+<span class="sd">        :param module_cls: module class object</span>
+<span class="sd">        :param force: Whether to override an existing class with</span>
+<span class="sd">                the same name. Default: False.</span>
+
+<span class="sd">        Example:</span>
+<span class="sd">            &gt;&gt;&gt; registry = Registry()</span>
+<span class="sd">            &gt;&gt;&gt; @registry.register_module()</span>
+<span class="sd">            &gt;&gt;&gt; class TextFormatter:</span>
+<span class="sd">            &gt;&gt;&gt;     pass</span>
+
+<span class="sd">            &gt;&gt;&gt; class TextFormatter2:</span>
+<span class="sd">            &gt;&gt;&gt;     pass</span>
+<span class="sd">            &gt;&gt;&gt; registry.register_module( module_name=&#39;text_formatter2&#39;,</span>
+<span class="sd">                                        module_cls=TextFormatter2)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">module_name</span><span class="p">,</span> <span class="nb">str</span><span class="p">)):</span>
+            <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;module_name must be either of None, str,&#39;</span>
+                            <span class="sa">f</span><span class="s1">&#39;got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">module_name</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">module_cls</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
+                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
+                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">module_cls</span>
+
+        <span class="c1"># if module_cls is None, should return a decorator function</span>
+        <span class="k">def</span><span class="w"> </span><span class="nf">_register</span><span class="p">(</span><span class="n">module_cls</span><span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            Register module class object to registry.</span>
+
+<span class="sd">            :param module_cls: module class object</span>
+<span class="sd">            :return: module class object.</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
+                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
+                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">module_cls</span>
+
+        <span class="k">return</span> <span class="n">_register</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/resource_utils.html b/_modules/data_juicer/utils/resource_utils.html
new file mode 100644
index 000000000..c50509428
--- /dev/null
+++ b/_modules/data_juicer/utils/resource_utils.html
@@ -0,0 +1,173 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.resource_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.resource_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.resource_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">subprocess</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">psutil</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">loguru</span><span class="w"> </span><span class="kn">import</span> <span class="n">logger</span>
+
+<span class="n">NVSMI_REPORT</span> <span class="o">=</span> <span class="kc">True</span>
+
+
+<div class="viewcode-block" id="query_cuda_info">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">query_cuda_info</span><span class="p">(</span><span class="n">query_key</span><span class="p">):</span>
+    <span class="k">global</span> <span class="n">NVSMI_REPORT</span>
+    <span class="c1"># get cuda info using &quot;nvidia-smi&quot; command in MB</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">nvidia_smi_output</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">([</span>
+            <span class="s1">&#39;nvidia-smi&#39;</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;--query-gpu=</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;--format=csv,noheader,nounits&#39;</span>
+        <span class="p">])</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+        <span class="k">if</span> <span class="s1">&#39;non-zero exit status 2&#39;</span> <span class="ow">in</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">):</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;The specified query_key [</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">] might not be &#39;</span> \
+                      <span class="sa">f</span><span class="s1">&#39;supported by command nvidia-smi. Please check and &#39;</span> \
+                      <span class="sa">f</span><span class="s1">&#39;retry!&#39;</span>
+        <span class="k">elif</span> <span class="s1">&#39;No such file or directory&#39;</span> <span class="ow">in</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">):</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="s1">&#39;Command nvidia-smi is not found. There might be no &#39;</span> \
+                      <span class="s1">&#39;GPUs on this machine.&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">NVSMI_REPORT</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
+            <span class="n">NVSMI_REPORT</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">return</span> <span class="kc">None</span>
+    <span class="n">cuda_info_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">nvidia_smi_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">):</span>
+        <span class="n">cuda_info_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">line</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">cuda_info_list</span></div>
+
+
+
+<div class="viewcode-block" id="get_cpu_count">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_cpu_count</span><span class="p">():</span>
+    <span class="k">return</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="get_cpu_utilization">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">get_cpu_utilization</span><span class="p">():</span>
+    <span class="k">return</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_percent</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="query_mem_info">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">query_mem_info</span><span class="p">(</span><span class="n">query_key</span><span class="p">):</span>
+    <span class="n">mem</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">query_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">mem</span><span class="o">.</span><span class="n">_fields</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;No such query key [</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">] for memory info. &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;Should be one of </span><span class="si">{</span><span class="n">mem</span><span class="o">.</span><span class="n">_fields</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">None</span>
+    <span class="n">val</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">mem</span><span class="o">.</span><span class="fm">__getattribute__</span><span class="p">(</span><span class="n">query_key</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="mi">2</span><span class="o">**</span><span class="mi">20</span><span class="p">),</span> <span class="mi">2</span><span class="p">)</span>  <span class="c1"># in MB</span>
+    <span class="k">return</span> <span class="n">val</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/unittest_utils.html b/_modules/data_juicer/utils/unittest_utils.html
new file mode 100644
index 000000000..6337dc256
--- /dev/null
+++ b/_modules/data_juicer/utils/unittest_utils.html
@@ -0,0 +1,263 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.unittest_utils &mdash; data_juicer 1.0.3 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=b86133f3" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=baaebd52"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.unittest_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.unittest_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">shutil</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">unittest</span>
+
+<span class="kn">import</span><span class="w"> </span><span class="nn">numpy</span>
+
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer</span><span class="w"> </span><span class="kn">import</span> <span class="n">is_cuda_available</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.data</span><span class="w"> </span><span class="kn">import</span> <span class="n">DJDataset</span><span class="p">,</span> <span class="n">NestedDataset</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.core.ray_data</span><span class="w"> </span><span class="kn">import</span> <span class="n">RayDataset</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.lazy_loader</span><span class="w"> </span><span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.model_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">free_models</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">data_juicer.utils.registry</span><span class="w"> </span><span class="kn">import</span> <span class="n">Registry</span>
+
+<span class="n">rd</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;rd&#39;</span><span class="p">,</span> <span class="s1">&#39;ray.data&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+
+<span class="n">SKIPPED_TESTS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;SkippedTests&#39;</span><span class="p">)</span>
+
+<span class="n">CLEAR_MODEL</span> <span class="o">=</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="TEST_TAG">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">TEST_TAG</span><span class="p">(</span><span class="o">*</span><span class="n">tags</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Tags for test case.</span>
+<span class="sd">    Currently, `standalone`, `ray` are supported.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">decorator</span><span class="p">(</span><span class="n">func</span><span class="p">):</span>
+        <span class="nb">setattr</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="s1">&#39;__test_tags__&#39;</span><span class="p">,</span> <span class="n">tags</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">func</span>
+
+    <span class="k">return</span> <span class="n">decorator</span></div>
+
+
+
+<div class="viewcode-block" id="set_clear_model_flag">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag">[docs]</a>
+<span class="k">def</span><span class="w"> </span><span class="nf">set_clear_model_flag</span><span class="p">(</span><span class="n">flag</span><span class="p">):</span>
+    <span class="k">global</span> <span class="n">CLEAR_MODEL</span>
+    <span class="n">CLEAR_MODEL</span> <span class="o">=</span> <span class="n">flag</span>
+    <span class="k">if</span> <span class="n">CLEAR_MODEL</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;CLEAR DOWNLOADED MODELS AFTER UNITTESTS.&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;KEEP DOWNLOADED MODELS AFTER UNITTESTS.&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">[docs]</a>
+<span class="k">class</span><span class="w"> </span><span class="nc">DataJuicerTestCaseBase</span><span class="p">(</span><span class="n">unittest</span><span class="o">.</span><span class="n">TestCase</span><span class="p">):</span>
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.setUpClass">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">setUpClass</span><span class="p">(</span><span class="bp">cls</span><span class="p">):</span>
+        <span class="c1"># Set maxDiff for all test cases based on an environment variable</span>
+        <span class="n">max_diff</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;TEST_MAX_DIFF&#39;</span><span class="p">,</span> <span class="s1">&#39;None&#39;</span><span class="p">)</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">maxDiff</span> <span class="o">=</span> <span class="kc">None</span> <span class="k">if</span> <span class="n">max_diff</span> <span class="o">==</span> <span class="s1">&#39;None&#39;</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span><span class="n">max_diff</span><span class="p">)</span>
+
+        <span class="kn">import</span><span class="w"> </span><span class="nn">multiprocess</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">original_mp_method</span> <span class="o">=</span> <span class="n">multiprocess</span><span class="o">.</span><span class="n">get_start_method</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">is_cuda_available</span><span class="p">():</span>
+            <span class="n">multiprocess</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="s1">&#39;spawn&#39;</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.tearDownClass">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">tearDownClass</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">hf_model_name</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="kn">import</span><span class="w"> </span><span class="nn">multiprocess</span>
+        <span class="n">multiprocess</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="bp">cls</span><span class="o">.</span><span class="n">original_mp_method</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="c1"># clean the huggingface model cache files</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">CLEAR_MODEL</span><span class="p">:</span>
+            <span class="k">pass</span>
+        <span class="k">elif</span> <span class="n">hf_model_name</span><span class="p">:</span>
+            <span class="c1"># given the hf model name, remove this model only</span>
+            <span class="n">model_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                <span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">,</span>
+                <span class="sa">f</span><span class="s1">&#39;models--</span><span class="si">{</span><span class="n">hf_model_name</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">,</span><span class="w"> </span><span class="s2">&quot;--&quot;</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_dir</span><span class="p">):</span>
+                <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;CLEAN model cache files for </span><span class="si">{</span><span class="n">hf_model_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">model_dir</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># not given the hf model name, remove the whole TRANSFORMERS_CACHE</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">):</span>
+                <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;CLEAN all TRANSFORMERS_CACHE&#39;</span><span class="p">)</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.tearDown">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span><span class="w"> </span><span class="nf">tearDown</span><span class="p">(</span><span class="bp">cls</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">free_models</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.generate_dataset">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">generate_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DJDataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Generate dataset for a specific executor.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            type (str, optional): &quot;standalone&quot; or &quot;ray&quot;.</span>
+<span class="sd">            Defaults to &quot;standalone&quot;.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">current_tag</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;current_tag&#39;</span><span class="p">,</span> <span class="s1">&#39;standalone&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;standalone&#39;</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">NestedDataset</span><span class="o">.</span><span class="n">from_list</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;ray&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">rd</span><span class="o">.</span><span class="n">from_items</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">RayDataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Unsupported type&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.run_single_op">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">run_single_op</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">:</span> <span class="n">DJDataset</span><span class="p">,</span> <span class="n">op</span><span class="p">,</span> <span class="n">column_names</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Run operator in the specific executor.&quot;&quot;&quot;</span>
+        <span class="n">current_tag</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;current_tag&#39;</span><span class="p">,</span> <span class="s1">&#39;standalone&#39;</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;standalone&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select_columns</span><span class="p">(</span><span class="n">column_names</span><span class="o">=</span><span class="n">column_names</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">to_list</span><span class="p">()</span>
+        <span class="k">elif</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;ray&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">to_pandas</span><span class="p">()</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">column_names</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">to_dict</span><span class="p">(</span><span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Unsupported type&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.assertDatasetEqual">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">[docs]</a>
+    <span class="k">def</span><span class="w"> </span><span class="nf">assertDatasetEqual</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">first</span><span class="p">,</span> <span class="n">second</span><span class="p">):</span>
+
+        <span class="k">def</span><span class="w"> </span><span class="nf">convert_record</span><span class="p">(</span><span class="n">rec</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">rec</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+                <span class="c1"># Convert incomparable `list` to comparable `tuple`</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                        <span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+                    <span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">rec</span>
+
+        <span class="n">first</span> <span class="o">=</span> <span class="p">[</span><span class="n">convert_record</span><span class="p">(</span><span class="n">d</span><span class="p">)</span> <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">first</span><span class="p">]</span>
+        <span class="n">second</span> <span class="o">=</span> <span class="p">[</span><span class="n">convert_record</span><span class="p">(</span><span class="n">d</span><span class="p">)</span> <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">second</span><span class="p">]</span>
+        <span class="n">first</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">first</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">sorted</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">items</span><span class="p">())))</span>
+        <span class="n">second</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">second</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">sorted</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">items</span><span class="p">())))</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">assertEqual</span><span class="p">(</span><span class="n">first</span><span class="p">,</span> <span class="n">second</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/index.html b/_modules/index.html
index d44e57a38..ce850c714 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -11,7 +11,7 @@
 
   
       <script src="../_static/documentation_options.js?v=baaebd52"></script>
-      <script src="../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../_static/doctools.js?v=9a2dae69"></script>
       <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -76,10 +76,14 @@
              
   <h1>All modules for which code is available</h1>
 <ul><li><a href="data_juicer.html">data_juicer</a></li>
-<ul><li><a href="data_juicer/analysis/column_wise_analysis.html">data_juicer.analysis.column_wise_analysis</a></li>
+<ul><li><a href="data_juicer/analysis/collector.html">data_juicer.analysis.collector</a></li>
+<li><a href="data_juicer/analysis/column_wise_analysis.html">data_juicer.analysis.column_wise_analysis</a></li>
 <li><a href="data_juicer/analysis/diversity_analysis.html">data_juicer.analysis.diversity_analysis</a></li>
+<li><a href="data_juicer/analysis/draw.html">data_juicer.analysis.draw</a></li>
+<li><a href="data_juicer/analysis/measure.html">data_juicer.analysis.measure</a></li>
 <li><a href="data_juicer/analysis/overall_analysis.html">data_juicer.analysis.overall_analysis</a></li>
 <li><a href="data_juicer/config/config.html">data_juicer.config.config</a></li>
+<li><a href="data_juicer/core/monitor.html">data_juicer.core.monitor</a></li>
 <li><a href="data_juicer/format/csv_formatter.html">data_juicer.format.csv_formatter</a></li>
 <li><a href="data_juicer/format/empty_formatter.html">data_juicer.format.empty_formatter</a></li>
 <li><a href="data_juicer/format/formatter.html">data_juicer.format.formatter</a></li>
@@ -93,7 +97,160 @@ <h1>All modules for which code is available</h1>
 <li><a href="data_juicer/ops/aggregator/meta_tags_aggregator.html">data_juicer.ops.aggregator.meta_tags_aggregator</a></li>
 <li><a href="data_juicer/ops/aggregator/most_relavant_entities_aggregator.html">data_juicer.ops.aggregator.most_relavant_entities_aggregator</a></li>
 <li><a href="data_juicer/ops/aggregator/nested_aggregator.html">data_juicer.ops.aggregator.nested_aggregator</a></li>
+<li><a href="data_juicer/ops/base_op.html">data_juicer.ops.base_op</a></li>
 <li><a href="data_juicer/ops/common/helper_func.html">data_juicer.ops.common.helper_func</a></li>
+<li><a href="data_juicer/ops/deduplicator/document_deduplicator.html">data_juicer.ops.deduplicator.document_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/document_minhash_deduplicator.html">data_juicer.ops.deduplicator.document_minhash_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/document_simhash_deduplicator.html">data_juicer.ops.deduplicator.document_simhash_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/image_deduplicator.html">data_juicer.ops.deduplicator.image_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/ray_basic_deduplicator.html">data_juicer.ops.deduplicator.ray_basic_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/ray_document_deduplicator.html">data_juicer.ops.deduplicator.ray_document_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/ray_image_deduplicator.html">data_juicer.ops.deduplicator.ray_image_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/ray_video_deduplicator.html">data_juicer.ops.deduplicator.ray_video_deduplicator</a></li>
+<li><a href="data_juicer/ops/deduplicator/video_deduplicator.html">data_juicer.ops.deduplicator.video_deduplicator</a></li>
+<li><a href="data_juicer/ops/filter/alphanumeric_filter.html">data_juicer.ops.filter.alphanumeric_filter</a></li>
+<li><a href="data_juicer/ops/filter/audio_duration_filter.html">data_juicer.ops.filter.audio_duration_filter</a></li>
+<li><a href="data_juicer/ops/filter/audio_nmf_snr_filter.html">data_juicer.ops.filter.audio_nmf_snr_filter</a></li>
+<li><a href="data_juicer/ops/filter/audio_size_filter.html">data_juicer.ops.filter.audio_size_filter</a></li>
+<li><a href="data_juicer/ops/filter/average_line_length_filter.html">data_juicer.ops.filter.average_line_length_filter</a></li>
+<li><a href="data_juicer/ops/filter/character_repetition_filter.html">data_juicer.ops.filter.character_repetition_filter</a></li>
+<li><a href="data_juicer/ops/filter/flagged_words_filter.html">data_juicer.ops.filter.flagged_words_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_aesthetics_filter.html">data_juicer.ops.filter.image_aesthetics_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_aspect_ratio_filter.html">data_juicer.ops.filter.image_aspect_ratio_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_face_count_filter.html">data_juicer.ops.filter.image_face_count_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_face_ratio_filter.html">data_juicer.ops.filter.image_face_ratio_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_nsfw_filter.html">data_juicer.ops.filter.image_nsfw_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_pair_similarity_filter.html">data_juicer.ops.filter.image_pair_similarity_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_shape_filter.html">data_juicer.ops.filter.image_shape_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_size_filter.html">data_juicer.ops.filter.image_size_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_text_matching_filter.html">data_juicer.ops.filter.image_text_matching_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_text_similarity_filter.html">data_juicer.ops.filter.image_text_similarity_filter</a></li>
+<li><a href="data_juicer/ops/filter/image_watermark_filter.html">data_juicer.ops.filter.image_watermark_filter</a></li>
+<li><a href="data_juicer/ops/filter/language_id_score_filter.html">data_juicer.ops.filter.language_id_score_filter</a></li>
+<li><a href="data_juicer/ops/filter/maximum_line_length_filter.html">data_juicer.ops.filter.maximum_line_length_filter</a></li>
+<li><a href="data_juicer/ops/filter/perplexity_filter.html">data_juicer.ops.filter.perplexity_filter</a></li>
+<li><a href="data_juicer/ops/filter/phrase_grounding_recall_filter.html">data_juicer.ops.filter.phrase_grounding_recall_filter</a></li>
+<li><a href="data_juicer/ops/filter/special_characters_filter.html">data_juicer.ops.filter.special_characters_filter</a></li>
+<li><a href="data_juicer/ops/filter/specified_field_filter.html">data_juicer.ops.filter.specified_field_filter</a></li>
+<li><a href="data_juicer/ops/filter/specified_numeric_field_filter.html">data_juicer.ops.filter.specified_numeric_field_filter</a></li>
+<li><a href="data_juicer/ops/filter/stopwords_filter.html">data_juicer.ops.filter.stopwords_filter</a></li>
+<li><a href="data_juicer/ops/filter/suffix_filter.html">data_juicer.ops.filter.suffix_filter</a></li>
+<li><a href="data_juicer/ops/filter/text_action_filter.html">data_juicer.ops.filter.text_action_filter</a></li>
+<li><a href="data_juicer/ops/filter/text_entity_dependency_filter.html">data_juicer.ops.filter.text_entity_dependency_filter</a></li>
+<li><a href="data_juicer/ops/filter/text_length_filter.html">data_juicer.ops.filter.text_length_filter</a></li>
+<li><a href="data_juicer/ops/filter/token_num_filter.html">data_juicer.ops.filter.token_num_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_aesthetics_filter.html">data_juicer.ops.filter.video_aesthetics_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_aspect_ratio_filter.html">data_juicer.ops.filter.video_aspect_ratio_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_duration_filter.html">data_juicer.ops.filter.video_duration_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_frames_text_similarity_filter.html">data_juicer.ops.filter.video_frames_text_similarity_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_motion_score_filter.html">data_juicer.ops.filter.video_motion_score_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_motion_score_raft_filter.html">data_juicer.ops.filter.video_motion_score_raft_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_nsfw_filter.html">data_juicer.ops.filter.video_nsfw_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_ocr_area_ratio_filter.html">data_juicer.ops.filter.video_ocr_area_ratio_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_resolution_filter.html">data_juicer.ops.filter.video_resolution_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_tagging_from_frames_filter.html">data_juicer.ops.filter.video_tagging_from_frames_filter</a></li>
+<li><a href="data_juicer/ops/filter/video_watermark_filter.html">data_juicer.ops.filter.video_watermark_filter</a></li>
+<li><a href="data_juicer/ops/filter/word_repetition_filter.html">data_juicer.ops.filter.word_repetition_filter</a></li>
+<li><a href="data_juicer/ops/filter/words_num_filter.html">data_juicer.ops.filter.words_num_filter</a></li>
+<li><a href="data_juicer/ops/grouper/key_value_grouper.html">data_juicer.ops.grouper.key_value_grouper</a></li>
+<li><a href="data_juicer/ops/grouper/naive_grouper.html">data_juicer.ops.grouper.naive_grouper</a></li>
+<li><a href="data_juicer/ops/grouper/naive_reverse_grouper.html">data_juicer.ops.grouper.naive_reverse_grouper</a></li>
+<li><a href="data_juicer/ops/load.html">data_juicer.ops.load</a></li>
+<li><a href="data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/calibrate_qa_mapper.html">data_juicer.ops.mapper.calibrate_qa_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/calibrate_query_mapper.html">data_juicer.ops.mapper.calibrate_query_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/calibrate_response_mapper.html">data_juicer.ops.mapper.calibrate_response_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/chinese_convert_mapper.html">data_juicer.ops.mapper.chinese_convert_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/clean_copyright_mapper.html">data_juicer.ops.mapper.clean_copyright_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/clean_email_mapper.html">data_juicer.ops.mapper.clean_email_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/clean_html_mapper.html">data_juicer.ops.mapper.clean_html_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/clean_ip_mapper.html">data_juicer.ops.mapper.clean_ip_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/clean_links_mapper.html">data_juicer.ops.mapper.clean_links_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/dialog_intent_detection_mapper.html">data_juicer.ops.mapper.dialog_intent_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html">data_juicer.ops.mapper.dialog_sentiment_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/dialog_topic_detection_mapper.html">data_juicer.ops.mapper.dialog_topic_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/expand_macro_mapper.html">data_juicer.ops.mapper.expand_macro_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_entity_attribute_mapper.html">data_juicer.ops.mapper.extract_entity_attribute_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_entity_relation_mapper.html">data_juicer.ops.mapper.extract_entity_relation_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_event_mapper.html">data_juicer.ops.mapper.extract_event_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_keyword_mapper.html">data_juicer.ops.mapper.extract_keyword_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_nickname_mapper.html">data_juicer.ops.mapper.extract_nickname_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/extract_support_text_mapper.html">data_juicer.ops.mapper.extract_support_text_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/fix_unicode_mapper.html">data_juicer.ops.mapper.fix_unicode_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/generate_qa_from_examples_mapper.html">data_juicer.ops.mapper.generate_qa_from_examples_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/generate_qa_from_text_mapper.html">data_juicer.ops.mapper.generate_qa_from_text_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_blur_mapper.html">data_juicer.ops.mapper.image_blur_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_captioning_mapper.html">data_juicer.ops.mapper.image_captioning_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_diffusion_mapper.html">data_juicer.ops.mapper.image_diffusion_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_face_blur_mapper.html">data_juicer.ops.mapper.image_face_blur_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/image_tagging_mapper.html">data_juicer.ops.mapper.image_tagging_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/nlpaug_en_mapper.html">data_juicer.ops.mapper.nlpaug_en_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/nlpcda_zh_mapper.html">data_juicer.ops.mapper.nlpcda_zh_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/optimize_qa_mapper.html">data_juicer.ops.mapper.optimize_qa_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/optimize_query_mapper.html">data_juicer.ops.mapper.optimize_query_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/optimize_response_mapper.html">data_juicer.ops.mapper.optimize_response_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/pair_preference_mapper.html">data_juicer.ops.mapper.pair_preference_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/punctuation_normalization_mapper.html">data_juicer.ops.mapper.punctuation_normalization_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/python_file_mapper.html">data_juicer.ops.mapper.python_file_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/python_lambda_mapper.html">data_juicer.ops.mapper.python_lambda_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/query_intent_detection_mapper.html">data_juicer.ops.mapper.query_intent_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/query_sentiment_detection_mapper.html">data_juicer.ops.mapper.query_sentiment_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/query_topic_detection_mapper.html">data_juicer.ops.mapper.query_topic_detection_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/relation_identity_mapper.html">data_juicer.ops.mapper.relation_identity_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_bibliography_mapper.html">data_juicer.ops.mapper.remove_bibliography_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_comments_mapper.html">data_juicer.ops.mapper.remove_comments_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_header_mapper.html">data_juicer.ops.mapper.remove_header_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_long_words_mapper.html">data_juicer.ops.mapper.remove_long_words_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_non_chinese_character_mapper.html">data_juicer.ops.mapper.remove_non_chinese_character_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_repeat_sentences_mapper.html">data_juicer.ops.mapper.remove_repeat_sentences_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_specific_chars_mapper.html">data_juicer.ops.mapper.remove_specific_chars_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_table_text_mapper.html">data_juicer.ops.mapper.remove_table_text_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/replace_content_mapper.html">data_juicer.ops.mapper.replace_content_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/sentence_split_mapper.html">data_juicer.ops.mapper.sentence_split_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/text_chunk_mapper.html">data_juicer.ops.mapper.text_chunk_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_captioning_from_audio_mapper.html">data_juicer.ops.mapper.video_captioning_from_audio_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_captioning_from_frames_mapper.html">data_juicer.ops.mapper.video_captioning_from_frames_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_captioning_from_video_mapper.html">data_juicer.ops.mapper.video_captioning_from_video_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_extract_frames_mapper.html">data_juicer.ops.mapper.video_extract_frames_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_face_blur_mapper.html">data_juicer.ops.mapper.video_face_blur_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_remove_watermark_mapper.html">data_juicer.ops.mapper.video_remove_watermark_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_resize_resolution_mapper.html">data_juicer.ops.mapper.video_resize_resolution_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_split_by_duration_mapper.html">data_juicer.ops.mapper.video_split_by_duration_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_split_by_key_frame_mapper.html">data_juicer.ops.mapper.video_split_by_key_frame_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_split_by_scene_mapper.html">data_juicer.ops.mapper.video_split_by_scene_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_tagging_from_audio_mapper.html">data_juicer.ops.mapper.video_tagging_from_audio_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/video_tagging_from_frames_mapper.html">data_juicer.ops.mapper.video_tagging_from_frames_mapper</a></li>
+<li><a href="data_juicer/ops/mapper/whitespace_normalization_mapper.html">data_juicer.ops.mapper.whitespace_normalization_mapper</a></li>
+<li><a href="data_juicer/ops/op_fusion.html">data_juicer.ops.op_fusion</a></li>
+<li><a href="data_juicer/ops/selector/frequency_specified_field_selector.html">data_juicer.ops.selector.frequency_specified_field_selector</a></li>
+<li><a href="data_juicer/ops/selector/random_selector.html">data_juicer.ops.selector.random_selector</a></li>
+<li><a href="data_juicer/ops/selector/range_specified_field_selector.html">data_juicer.ops.selector.range_specified_field_selector</a></li>
+<li><a href="data_juicer/ops/selector/tags_specified_field_selector.html">data_juicer.ops.selector.tags_specified_field_selector</a></li>
+<li><a href="data_juicer/ops/selector/topk_specified_field_selector.html">data_juicer.ops.selector.topk_specified_field_selector</a></li>
+<li><a href="data_juicer/utils/asset_utils.html">data_juicer.utils.asset_utils</a></li>
+<li><a href="data_juicer/utils/auto_install_utils.html">data_juicer.utils.auto_install_utils</a></li>
+<li><a href="data_juicer/utils/cache_utils.html">data_juicer.utils.cache_utils</a></li>
+<li><a href="data_juicer/utils/ckpt_utils.html">data_juicer.utils.ckpt_utils</a></li>
+<li><a href="data_juicer/utils/common_utils.html">data_juicer.utils.common_utils</a></li>
+<li><a href="data_juicer/utils/compress.html">data_juicer.utils.compress</a></li>
+<li><a href="data_juicer/utils/constant.html">data_juicer.utils.constant</a></li>
+<li><a href="data_juicer/utils/file_utils.html">data_juicer.utils.file_utils</a></li>
+<li><a href="data_juicer/utils/fingerprint_utils.html">data_juicer.utils.fingerprint_utils</a></li>
+<li><a href="data_juicer/utils/lazy_loader.html">data_juicer.utils.lazy_loader</a></li>
+<li><a href="data_juicer/utils/logger_utils.html">data_juicer.utils.logger_utils</a></li>
+<li><a href="data_juicer/utils/mm_utils.html">data_juicer.utils.mm_utils</a></li>
+<li><a href="data_juicer/utils/model_utils.html">data_juicer.utils.model_utils</a></li>
+<li><a href="data_juicer/utils/process_utils.html">data_juicer.utils.process_utils</a></li>
+<li><a href="data_juicer/utils/registry.html">data_juicer.utils.registry</a></li>
+<li><a href="data_juicer/utils/resource_utils.html">data_juicer.utils.resource_utils</a></li>
+<li><a href="data_juicer/utils/unittest_utils.html">data_juicer.utils.unittest_utils</a></li>
 </ul></ul>
 
            </div>
diff --git a/_sources/data_juicer.analysis.rst.txt b/_sources/data_juicer.analysis.rst.txt
index 1fbf84b35..424c7004d 100644
--- a/_sources/data_juicer.analysis.rst.txt
+++ b/_sources/data_juicer.analysis.rst.txt
@@ -1,7 +1,61 @@
-data_juicer.analysis
-====================
+data\_juicer.analysis package
+=============================
+
+Submodules
+----------
+
+data\_juicer.analysis.collector module
+--------------------------------------
+
+.. automodule:: data_juicer.analysis.collector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.column\_wise\_analysis module
+---------------------------------------------------
+
+.. automodule:: data_juicer.analysis.column_wise_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.diversity\_analysis module
+------------------------------------------------
+
+.. automodule:: data_juicer.analysis.diversity_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.draw module
+---------------------------------
+
+.. automodule:: data_juicer.analysis.draw
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.measure module
+------------------------------------
+
+.. automodule:: data_juicer.analysis.measure
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.overall\_analysis module
+----------------------------------------------
+
+.. automodule:: data_juicer.analysis.overall_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.analysis
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.config.rst.txt b/_sources/data_juicer.config.rst.txt
index 121c836ed..9b7293596 100644
--- a/_sources/data_juicer.config.rst.txt
+++ b/_sources/data_juicer.config.rst.txt
@@ -1,7 +1,21 @@
-data_juicer.config
-==================
+data\_juicer.config package
+===========================
+
+Submodules
+----------
+
+data\_juicer.config.config module
+---------------------------------
+
+.. automodule:: data_juicer.config.config
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.config
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.core.rst.txt b/_sources/data_juicer.core.rst.txt
index 99a3c1663..4eab6eea5 100644
--- a/_sources/data_juicer.core.rst.txt
+++ b/_sources/data_juicer.core.rst.txt
@@ -1,7 +1,85 @@
-data_juicer.core
-================
+data\_juicer.core package
+=========================
+
+Submodules
+----------
+
+data\_juicer.core.adapter module
+--------------------------------
+
+.. automodule:: data_juicer.core.adapter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.analyzer module
+---------------------------------
+
+.. automodule:: data_juicer.core.analyzer
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.data module
+-----------------------------
+
+.. automodule:: data_juicer.core.data
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.executor module
+---------------------------------
+
+.. automodule:: data_juicer.core.executor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.exporter module
+---------------------------------
+
+.. automodule:: data_juicer.core.exporter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.monitor module
+--------------------------------
+
+.. automodule:: data_juicer.core.monitor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.ray\_data module
+----------------------------------
+
+.. automodule:: data_juicer.core.ray_data
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.ray\_executor module
+--------------------------------------
+
+.. automodule:: data_juicer.core.ray_executor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.tracer module
+-------------------------------
+
+.. automodule:: data_juicer.core.tracer
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.core
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.format.rst.txt b/_sources/data_juicer.format.rst.txt
index 3f33b3ae9..8e2791823 100644
--- a/_sources/data_juicer.format.rst.txt
+++ b/_sources/data_juicer.format.rst.txt
@@ -1,7 +1,85 @@
-data_juicer.format
-==================
+data\_juicer.format package
+===========================
+
+Submodules
+----------
+
+data\_juicer.format.csv\_formatter module
+-----------------------------------------
+
+.. automodule:: data_juicer.format.csv_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.empty\_formatter module
+-------------------------------------------
+
+.. automodule:: data_juicer.format.empty_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.formatter module
+------------------------------------
+
+.. automodule:: data_juicer.format.formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.json\_formatter module
+------------------------------------------
+
+.. automodule:: data_juicer.format.json_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.load module
+-------------------------------
+
+.. automodule:: data_juicer.format.load
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.mixture\_formatter module
+---------------------------------------------
+
+.. automodule:: data_juicer.format.mixture_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.parquet\_formatter module
+---------------------------------------------
+
+.. automodule:: data_juicer.format.parquet_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.text\_formatter module
+------------------------------------------
+
+.. automodule:: data_juicer.format.text_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.tsv\_formatter module
+-----------------------------------------
+
+.. automodule:: data_juicer.format.tsv_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.format
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.aggregator.rst.txt b/_sources/data_juicer.ops.aggregator.rst.txt
index e514e4ef1..36d23ecec 100644
--- a/_sources/data_juicer.ops.aggregator.rst.txt
+++ b/_sources/data_juicer.ops.aggregator.rst.txt
@@ -1,7 +1,45 @@
-data_juicer.ops.aggregator
-==========================
+data\_juicer.ops.aggregator package
+===================================
+
+Submodules
+----------
+
+data\_juicer.ops.aggregator.entity\_attribute\_aggregator module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.entity_attribute_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.aggregator.meta\_tags\_aggregator module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.meta_tags_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.aggregator.most\_relavant\_entities\_aggregator module
+-----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.most_relavant_entities_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.aggregator.nested\_aggregator module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.nested_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.aggregator
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.common.rst.txt b/_sources/data_juicer.ops.common.rst.txt
index aff6737ec..be34ff5bf 100644
--- a/_sources/data_juicer.ops.common.rst.txt
+++ b/_sources/data_juicer.ops.common.rst.txt
@@ -1,7 +1,29 @@
-data_juicer.ops.common
-======================
+data\_juicer.ops.common package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.common.helper\_func module
+-------------------------------------------
+
+.. automodule:: data_juicer.ops.common.helper_func
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.common.special\_characters module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.common.special_characters
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.common
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.deduplicator.rst.txt b/_sources/data_juicer.ops.deduplicator.rst.txt
index 6cc2a95e7..570f0c4c9 100644
--- a/_sources/data_juicer.ops.deduplicator.rst.txt
+++ b/_sources/data_juicer.ops.deduplicator.rst.txt
@@ -1,7 +1,93 @@
-data_juicer.ops.deduplicator
-============================
+data\_juicer.ops.deduplicator package
+=====================================
+
+Submodules
+----------
+
+data\_juicer.ops.deduplicator.document\_deduplicator module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.document\_minhash\_deduplicator module
+--------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_minhash_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.document\_simhash\_deduplicator module
+--------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_simhash_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.image\_deduplicator module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.image_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_basic\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_basic_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_bts\_minhash\_deduplicator module
+--------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_document\_deduplicator module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_document_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_image\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_image_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_video\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_video_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.video\_deduplicator module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.video_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.deduplicator
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.filter.rst.txt b/_sources/data_juicer.ops.filter.rst.txt
index f6ad3f5f6..c61a299c9 100644
--- a/_sources/data_juicer.ops.filter.rst.txt
+++ b/_sources/data_juicer.ops.filter.rst.txt
@@ -1,7 +1,365 @@
-data_juicer.ops.filter
-======================
+data\_juicer.ops.filter package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.filter.alphanumeric\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.alphanumeric_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_duration\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_duration_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_nmf\_snr\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_nmf_snr_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_size\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_size_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.average\_line\_length\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.average_line_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.character\_repetition\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.character_repetition_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.flagged\_words\_filter module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.flagged_words_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_aesthetics\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_aesthetics_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_aspect\_ratio\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_aspect_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_face\_count\_filter module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_face_count_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_face\_ratio\_filter module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_face_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_nsfw\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_nsfw_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_pair\_similarity\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_pair_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_shape\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_shape_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_size\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_size_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_text\_matching\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_text_matching_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_text\_similarity\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_text_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_watermark\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_watermark_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.language\_id\_score\_filter module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.language_id_score_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.maximum\_line\_length\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.maximum_line_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.perplexity\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.perplexity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.phrase\_grounding\_recall\_filter module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.phrase_grounding_recall_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.special\_characters\_filter module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.special_characters_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.specified\_field\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.specified_field_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.specified\_numeric\_field\_filter module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.specified_numeric_field_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.stopwords\_filter module
+------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.stopwords_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.suffix\_filter module
+---------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.suffix_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_action\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_action_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_entity\_dependency\_filter module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_entity_dependency_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_length\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.token\_num\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.token_num_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_aesthetics\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_aesthetics_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_aspect\_ratio\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_aspect_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_duration\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_duration_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_frames\_text\_similarity\_filter module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_frames_text_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_motion\_score\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_motion_score_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_motion\_score\_raft\_filter module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_motion_score_raft_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_nsfw\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_nsfw_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_ocr\_area\_ratio\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_ocr_area_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_resolution\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_resolution_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_tagging\_from\_frames\_filter module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_tagging_from_frames_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_watermark\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_watermark_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.word\_repetition\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.word_repetition_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.words\_num\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.words_num_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.filter
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.grouper.rst.txt b/_sources/data_juicer.ops.grouper.rst.txt
index 4a8a8ad1a..95e70c497 100644
--- a/_sources/data_juicer.ops.grouper.rst.txt
+++ b/_sources/data_juicer.ops.grouper.rst.txt
@@ -1,7 +1,37 @@
-data_juicer.ops.grouper
-=======================
+data\_juicer.ops.grouper package
+================================
+
+Submodules
+----------
+
+data\_juicer.ops.grouper.key\_value\_grouper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.grouper.key_value_grouper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.grouper.naive\_grouper module
+----------------------------------------------
+
+.. automodule:: data_juicer.ops.grouper.naive_grouper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.grouper.naive\_reverse\_grouper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.grouper.naive_reverse_grouper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.grouper
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.mapper.rst.txt b/_sources/data_juicer.ops.mapper.rst.txt
index a0e036e46..fd1bec023 100644
--- a/_sources/data_juicer.ops.mapper.rst.txt
+++ b/_sources/data_juicer.ops.mapper.rst.txt
@@ -1,7 +1,581 @@
-data_juicer.ops.mapper
-======================
+data\_juicer.ops.mapper package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.mapper.audio\_ffmpeg\_wrapped\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_qa\_mapper module
+----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_qa_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_query\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_query_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_response\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_response_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.chinese\_convert\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.chinese_convert_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_copyright\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_copyright_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_email\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_email_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_html\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_html_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_ip\_mapper module
+------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_ip_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_links\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_links_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.dialog\_intent\_detection\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.dialog_intent_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.dialog\_sentiment\_detection\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.dialog_sentiment_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.dialog\_sentiment\_intensity\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.dialog_sentiment_intensity_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.dialog\_topic\_detection\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.dialog_topic_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.expand\_macro\_mapper module
+----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.expand_macro_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_entity\_attribute\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_entity_attribute_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_entity\_relation\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_entity_relation_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_event\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_event_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_keyword\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_keyword_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_nickname\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_nickname_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_support\_text\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_support_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.fix\_unicode\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.fix_unicode_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.generate\_qa\_from\_examples\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.generate_qa_from_examples_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.generate\_qa\_from\_text\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.generate_qa_from_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_blur\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_captioning\_from\_gpt4v\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_captioning\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_captioning_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_diffusion\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_diffusion_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_face\_blur\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_face_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_tagging\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_tagging_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.nlpaug\_en\_mapper module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.nlpaug_en_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.nlpcda\_zh\_mapper module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.nlpcda_zh_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_qa\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_qa_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_query\_mapper module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_query_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_response\_mapper module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_response_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.pair\_preference\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.pair_preference_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.punctuation\_normalization\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.punctuation_normalization_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.python\_file\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.python_file_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.python\_lambda\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.python_lambda_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.query\_intent\_detection\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.query_intent_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.query\_sentiment\_detection\_mapper module
+------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.query_sentiment_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.query\_topic\_detection\_mapper module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.query_topic_detection_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.relation\_identity\_mapper module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.relation_identity_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_bibliography\_mapper module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_bibliography_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_comments\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_comments_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_header\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_header_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_long\_words\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_long_words_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_non\_chinese\_character\_mapper module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_non_chinese_character_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_repeat\_sentences\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_repeat_sentences_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_specific\_chars\_mapper module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_specific_chars_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_table\_text\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_table_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_words\_with\_incorrect\_substrings\_mapper module
+---------------------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.replace\_content\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.replace_content_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.sentence\_split\_mapper module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.sentence_split_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.text\_chunk\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.text_chunk_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_audio\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_audio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_frames\_mapper module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_summarizer\_mapper module
+--------------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_summarizer_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_video\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_video_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_extract\_frames\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_extract_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_face\_blur\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_face_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_ffmpeg\_wrapped\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_remove\_watermark\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_remove_watermark_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_resize\_aspect\_ratio\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_resize_aspect_ratio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_resize\_resolution\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_resize_resolution_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_duration\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_duration_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_key\_frame\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_key_frame_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_scene\_mapper module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_scene_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_tagging\_from\_audio\_mapper module
+------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_tagging_from_audio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_tagging\_from\_frames\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_tagging_from_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.whitespace\_normalization\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.whitespace_normalization_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.mapper
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.rst.txt b/_sources/data_juicer.ops.rst.txt
index 56cf7fd48..93bd281bd 100644
--- a/_sources/data_juicer.ops.rst.txt
+++ b/_sources/data_juicer.ops.rst.txt
@@ -1,7 +1,51 @@
-data_juicer.ops
-===============
+data\_juicer.ops package
+========================
+
+Subpackages
+-----------
+
+.. toctree::
+   :maxdepth: 4
+
+   data_juicer.ops.aggregator
+   data_juicer.ops.common
+   data_juicer.ops.deduplicator
+   data_juicer.ops.filter
+   data_juicer.ops.grouper
+   data_juicer.ops.mapper
+   data_juicer.ops.selector
+
+Submodules
+----------
+
+data\_juicer.ops.base\_op module
+--------------------------------
+
+.. automodule:: data_juicer.ops.base_op
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.load module
+----------------------------
+
+.. automodule:: data_juicer.ops.load
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.op\_fusion module
+----------------------------------
+
+.. automodule:: data_juicer.ops.op_fusion
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.selector.rst.txt b/_sources/data_juicer.ops.selector.rst.txt
index f4092e8c2..c43e98490 100644
--- a/_sources/data_juicer.ops.selector.rst.txt
+++ b/_sources/data_juicer.ops.selector.rst.txt
@@ -1,7 +1,53 @@
-data_juicer.ops.selector
-========================
+data\_juicer.ops.selector package
+=================================
+
+Submodules
+----------
+
+data\_juicer.ops.selector.frequency\_specified\_field\_selector module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.frequency_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.random\_selector module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.random_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.range\_specified\_field\_selector module
+------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.range_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.tags\_specified\_field\_selector module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.tags_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.topk\_specified\_field\_selector module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.topk_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.selector
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.rst.txt b/_sources/data_juicer.rst.txt
index 0aa1c32af..91c39178f 100644
--- a/_sources/data_juicer.rst.txt
+++ b/_sources/data_juicer.rst.txt
@@ -1,7 +1,24 @@
-data_juicer
-===========
+data\_juicer package
+====================
+
+Subpackages
+-----------
+
+.. toctree::
+   :maxdepth: 4
+
+   data_juicer.analysis
+   data_juicer.config
+   data_juicer.core
+   data_juicer.format
+   data_juicer.ops
+   data_juicer.tools
+   data_juicer.utils
+
+Module contents
+---------------
 
 .. automodule:: data_juicer
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.tools.rst.txt b/_sources/data_juicer.tools.rst.txt
index 61a7e299c..352714fa1 100644
--- a/_sources/data_juicer.tools.rst.txt
+++ b/_sources/data_juicer.tools.rst.txt
@@ -1,7 +1,10 @@
-data_juicer.tools
-=================
+data\_juicer.tools package
+==========================
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.tools
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.utils.rst.txt b/_sources/data_juicer.utils.rst.txt
index 6ebd69b75..ac3e60118 100644
--- a/_sources/data_juicer.utils.rst.txt
+++ b/_sources/data_juicer.utils.rst.txt
@@ -1,7 +1,165 @@
-data_juicer.utils
-=================
+data\_juicer.utils package
+==========================
+
+Submodules
+----------
+
+data\_juicer.utils.asset\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.asset_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.auto\_install\_mapping module
+------------------------------------------------
+
+.. automodule:: data_juicer.utils.auto_install_mapping
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.auto\_install\_utils module
+----------------------------------------------
+
+.. automodule:: data_juicer.utils.auto_install_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.availability\_utils module
+---------------------------------------------
+
+.. automodule:: data_juicer.utils.availability_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.cache\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.cache_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.ckpt\_utils module
+-------------------------------------
+
+.. automodule:: data_juicer.utils.ckpt_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.common\_utils module
+---------------------------------------
+
+.. automodule:: data_juicer.utils.common_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.compress module
+----------------------------------
+
+.. automodule:: data_juicer.utils.compress
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.constant module
+----------------------------------
+
+.. automodule:: data_juicer.utils.constant
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.file\_utils module
+-------------------------------------
+
+.. automodule:: data_juicer.utils.file_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.fingerprint\_utils module
+--------------------------------------------
+
+.. automodule:: data_juicer.utils.fingerprint_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.lazy\_loader module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.lazy_loader
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.logger\_utils module
+---------------------------------------
+
+.. automodule:: data_juicer.utils.logger_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.mm\_utils module
+-----------------------------------
+
+.. automodule:: data_juicer.utils.mm_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.model\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.model_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.process\_utils module
+----------------------------------------
+
+.. automodule:: data_juicer.utils.process_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.registry module
+----------------------------------
+
+.. automodule:: data_juicer.utils.registry
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.resource\_utils module
+-----------------------------------------
+
+.. automodule:: data_juicer.utils.resource_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.unittest\_utils module
+-----------------------------------------
+
+.. automodule:: data_juicer.utils.unittest_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.utils
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_static/basic.css b/_static/basic.css
index 7ebbd6d07..f316efcb4 100644
--- a/_static/basic.css
+++ b/_static/basic.css
@@ -1,5 +1,12 @@
 /*
+ * basic.css
+ * ~~~~~~~~~
+ *
  * Sphinx stylesheet -- basic theme.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 
 /* -- main layout ----------------------------------------------------------- */
@@ -108,11 +115,15 @@ img {
 /* -- search page ----------------------------------------------------------- */
 
 ul.search {
-    margin-top: 10px;
+    margin: 10px 0 0 20px;
+    padding: 0;
 }
 
 ul.search li {
-    padding: 5px 0;
+    padding: 5px 0 5px 20px;
+    background-image: url(file.png);
+    background-repeat: no-repeat;
+    background-position: 0 7px;
 }
 
 ul.search li a {
diff --git a/_static/doctools.js b/_static/doctools.js
index 0398ebb9f..4d67807d1 100644
--- a/_static/doctools.js
+++ b/_static/doctools.js
@@ -1,5 +1,12 @@
 /*
+ * doctools.js
+ * ~~~~~~~~~~~
+ *
  * Base JavaScript utilities for all Sphinx HTML documentation.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 "use strict";
 
diff --git a/_static/language_data.js b/_static/language_data.js
index c7fe6c6fa..367b8ed81 100644
--- a/_static/language_data.js
+++ b/_static/language_data.js
@@ -1,6 +1,13 @@
 /*
+ * language_data.js
+ * ~~~~~~~~~~~~~~~~
+ *
  * This script contains the language-specific data used by searchtools.js,
  * namely the list of stopwords, stemmer, scorer and splitter.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 
 var stopwords = ["a", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "near", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to", "was", "will", "with"];
diff --git a/_static/searchtools.js b/_static/searchtools.js
index 2c774d17a..b08d58c9b 100644
--- a/_static/searchtools.js
+++ b/_static/searchtools.js
@@ -1,5 +1,12 @@
 /*
+ * searchtools.js
+ * ~~~~~~~~~~~~~~~~
+ *
  * Sphinx JavaScript utilities for the full-text search.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 "use strict";
 
@@ -13,7 +20,7 @@ if (typeof Scorer === "undefined") {
     // and returns the new score.
     /*
     score: result => {
-      const [docname, title, anchor, descr, score, filename, kind] = result
+      const [docname, title, anchor, descr, score, filename] = result
       return score
     },
     */
@@ -40,14 +47,6 @@ if (typeof Scorer === "undefined") {
   };
 }
 
-// Global search result kind enum, used by themes to style search results.
-class SearchResultKind {
-    static get index() { return  "index"; }
-    static get object() { return "object"; }
-    static get text() { return "text"; }
-    static get title() { return "title"; }
-}
-
 const _removeChildren = (element) => {
   while (element && element.lastChild) element.removeChild(element.lastChild);
 };
@@ -65,13 +64,9 @@ const _displayItem = (item, searchTerms, highlightTerms) => {
   const showSearchSummary = DOCUMENTATION_OPTIONS.SHOW_SEARCH_SUMMARY;
   const contentRoot = document.documentElement.dataset.content_root;
 
-  const [docName, title, anchor, descr, score, _filename, kind] = item;
+  const [docName, title, anchor, descr, score, _filename] = item;
 
   let listItem = document.createElement("li");
-  // Add a class representing the item's type:
-  // can be used by a theme's CSS selector for styling
-  // See SearchResultKind for the class names.
-  listItem.classList.add(`kind-${kind}`);
   let requestUrl;
   let linkUrl;
   if (docBuilder === "dirhtml") {
@@ -120,10 +115,8 @@ const _finishSearch = (resultCount) => {
       "Your search did not match any documents. Please make sure that all words are spelled correctly and that you've selected enough categories."
     );
   else
-    Search.status.innerText = Documentation.ngettext(
-      "Search finished, found one page matching the search query.",
-      "Search finished, found ${resultCount} pages matching the search query.",
-      resultCount,
+    Search.status.innerText = _(
+      "Search finished, found ${resultCount} page(s) matching the search query."
     ).replace('${resultCount}', resultCount);
 };
 const _displayNextItem = (
@@ -145,7 +138,7 @@ const _displayNextItem = (
   else _finishSearch(resultCount);
 };
 // Helper function used by query() to order search results.
-// Each input is an array of [docname, title, anchor, descr, score, filename, kind].
+// Each input is an array of [docname, title, anchor, descr, score, filename].
 // Order the results by score (in opposite order of appearance, since the
 // `_displayNextItem` function uses pop() to retrieve items) and then alphabetically.
 const _orderResultsByScoreThenName = (a, b) => {
@@ -255,7 +248,6 @@ const Search = {
     searchSummary.classList.add("search-summary");
     searchSummary.innerText = "";
     const searchList = document.createElement("ul");
-    searchList.setAttribute("role", "list");
     searchList.classList.add("search");
 
     const out = document.getElementById("search-results");
@@ -326,7 +318,7 @@ const Search = {
     const indexEntries = Search._index.indexentries;
 
     // Collect multiple result groups to be sorted separately and then ordered.
-    // Each is an array of [docname, title, anchor, descr, score, filename, kind].
+    // Each is an array of [docname, title, anchor, descr, score, filename].
     const normalResults = [];
     const nonMainIndexResults = [];
 
@@ -345,7 +337,6 @@ const Search = {
             null,
             score + boost,
             filenames[file],
-            SearchResultKind.title,
           ]);
         }
       }
@@ -363,7 +354,6 @@ const Search = {
             null,
             score,
             filenames[file],
-            SearchResultKind.index,
           ];
           if (isMain) {
             normalResults.push(result);
@@ -485,7 +475,6 @@ const Search = {
         descr,
         score,
         filenames[match[0]],
-        SearchResultKind.object,
       ]);
     };
     Object.keys(objects).forEach((prefix) =>
@@ -596,7 +585,6 @@ const Search = {
         null,
         score,
         filenames[file],
-        SearchResultKind.text,
       ]);
     }
     return results;
diff --git a/data_juicer.analysis.html b/data_juicer.analysis.html
index 04b085576..fa3321634 100644
--- a/data_juicer.analysis.html
+++ b/data_juicer.analysis.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.analysis package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.config" href="data_juicer.config.html" />
-    <link rel="prev" title="data_juicer.ops.common" href="data_juicer.ops.common.html" /> 
+    <link rel="next" title="data_juicer.config package" href="data_juicer.config.html" />
+    <link rel="prev" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,21 +42,26 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.analysis</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -73,7 +78,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis</li>
+      <li class="breadcrumb-item active">data_juicer.analysis package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.analysis.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -83,8 +88,481 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.analysis">
-<span id="data-juicer-analysis"></span><h1>data_juicer.analysis<a class="headerlink" href="#module-data_juicer.analysis" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-analysis-package">
+<h1>data_juicer.analysis package<a class="headerlink" href="#data-juicer-analysis-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.analysis.collector">
+<span id="data-juicer-analysis-collector-module"></span><h2>data_juicer.analysis.collector module<a class="headerlink" href="#module-data_juicer.analysis.collector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.collector.</span></span><span class="sig-name descname"><span class="pre">TextTokenDistCollector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Tokenize and collect distribution of tokens for given
+dataset with a specified tokenizer.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>tokenizer</strong> – tokenizer name on huggingface</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector.collect">
+<span class="sig-name descname"><span class="pre">collect</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Categorical</span></span></span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector.collect"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector.collect" title="Link to this definition">¶</a></dt>
+<dd><p>Tokenize and collect tokens distribution of input dataset
+:param data_path: path to input dataset.
+:param text_key: field keys that will be considered into token counts.
+:param num_proc: number of processes to count tokens.
+:return: token distribution.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.column_wise_analysis">
+<span id="data-juicer-analysis-column-wise-analysis-module"></span><h2>data_juicer.analysis.column_wise_analysis module<a class="headerlink" href="#module-data_juicer.analysis.column_wise_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.get_row_col">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">get_row_col</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#get_row_col"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.get_row_col" title="Link to this definition">¶</a></dt>
+<dd><p>Given the total number of stats figures, get the “best” number of rows and
+columns. This function is needed when we need to store all stats figures
+into one image.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>total_num</strong> – Total number of stats figures</p></li>
+<li><p><strong>factor</strong> – Number of sub-figure types in each figure. In
+default, it’s 2, which means there are histogram and box plot
+for each stat figure</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>“best” number of rows and columns, and the grid list</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply analysis on each column of stats respectively.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to be analyzed</p></li>
+<li><p><strong>output_path</strong> – path to store the analysis results</p></li>
+<li><p><strong>overall_result</strong> – optional precomputed overall stats result</p></li>
+<li><p><strong>save_stats_in_one_file</strong> – whether save all analysis figures of all
+stats into one image file</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">show_percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply analysis and draw the analysis figure for stats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>show_percentiles</strong> – whether to show the percentile line in
+each sub-figure. If it’s true, there will be several red
+lines to indicate the quantiles of the stats distributions</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+<li><p><strong>skip_export</strong> – whether save the results into disk</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">
+<span class="sig-name descname"><span class="pre">draw_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist" title="Link to this definition">¶</a></dt>
+<dd><p>Draw the histogram for the data.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ax</strong> – the axes to draw</p></li>
+<li><p><strong>data</strong> – data to draw</p></li>
+<li><p><strong>save_path</strong> – the path to save the histogram figure</p></li>
+<li><p><strong>percentiles</strong> – the overall analysis result of the data
+including percentile information</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">
+<span class="sig-name descname"><span class="pre">draw_box</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_box"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box" title="Link to this definition">¶</a></dt>
+<dd><p>Draw the box plot for the data.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ax</strong> – the axes to draw</p></li>
+<li><p><strong>data</strong> – data to draw</p></li>
+<li><p><strong>save_path</strong> – the path to save the box figure</p></li>
+<li><p><strong>percentiles</strong> – the overall analysis result of the data
+including percentile information</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">
+<span class="sig-name descname"><span class="pre">draw_wordcloud</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_wordcloud"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.diversity_analysis">
+<span id="data-juicer-analysis-diversity-analysis-module"></span><h2>data_juicer.analysis.diversity_analysis module<a class="headerlink" href="#module-data_juicer.analysis.diversity_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tree_root</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj" title="Link to this definition">¶</a></dt>
+<dd><p>Find the verb and its object closest to the root.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>tree_root</strong> – the root of lexical tree</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>valid verb and its object.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj_in_string</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">nlp</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">first_sent</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj_in_string"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string" title="Link to this definition">¶</a></dt>
+<dd><p>Find the verb and its object closest to the root of lexical tree of input
+string.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>nlp</strong> – the diversity model to analyze the diversity strings</p></li>
+<li><p><strong>s</strong> – the string to be analyzed</p></li>
+<li><p><strong>first_sent</strong> – whether to analyze the first sentence in the
+input string only. If it’s true, return the analysis result of
+the first sentence no matter it’s valid or not. If it’s false,
+return the first valid result over all sentences</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>valid verb and its object of this string</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.get_diversity">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">get_diversity</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_verbs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_nouns</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#get_diversity"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.get_diversity" title="Link to this definition">¶</a></dt>
+<dd><p>Given the lexical tree analysis result, return the diversity results.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – lexical tree analysis result</p></li>
+<li><p><strong>top_k_verbs</strong> – only keep the top_k_verbs largest verb groups</p></li>
+<li><p><strong>top_k_nouns</strong> – only keep the top_k_nouns largest noun groups
+for each verb group</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the diversity results</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">DiversityAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply diversity analysis for each sample and get an overall analysis
+result.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method :param dataset: the dataset to be analyzed
+:param output_path: path to store the analysis results :param
+lang_or_model: the diversity model or a specific language used to load
+the diversity model.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">
+<span class="sig-name descname"><span class="pre">compute</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'text'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.compute"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute" title="Link to this definition">¶</a></dt>
+<dd><p>Apply lexical tree analysis on each sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
+used to load the diversity model</p></li>
+<li><p><strong>column_name</strong> – the name of column to be analyzed</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the analysis result.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name='text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">postproc_func=&lt;function</span> <span class="pre">get_diversity&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">**postproc_kwarg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply diversity analysis on the whole dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
+used to load the diversity model</p></li>
+<li><p><strong>column_name</strong> – the name of column to be analyzed</p></li>
+<li><p><strong>postproc_func</strong> – function to analyze diversity. In default,
+it’s function get_diversity</p></li>
+<li><p><strong>postproc_kwarg</strong> – arguments of the postproc_func</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.draw">
+<span id="data-juicer-analysis-draw-module"></span><h2>data_juicer.analysis.draw module<a class="headerlink" href="#module-data_juicer.analysis.draw" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.draw.draw_heatmap">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.draw.</span></span><span class="sig-name descname"><span class="pre">draw_heatmap</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">xlabels</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ylables</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">figsize</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">triangle</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/draw.html#draw_heatmap"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.draw.draw_heatmap" title="Link to this definition">¶</a></dt>
+<dd><p>Draw heatmap of input data with special lables.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>data</strong> – input data, now support
+[<cite>list</cite>, <cite>tuple</cite>, <cite>numpy array</cite>, ‘torch tensor’]</p></li>
+<li><p><strong>xlabels</strong> – x axis labels.</p></li>
+<li><p><strong>ylabels</strong> – y axis labels, if None, use xlabels.</p></li>
+<li><p><strong>figsize</strong> – figure size.</p></li>
+<li><p><strong>triangle</strong> – only display triangle.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a plot figure.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.measure">
+<span id="data-juicer-analysis-measure-module"></span><h2>data_juicer.analysis.measure module<a class="headerlink" href="#module-data_juicer.analysis.measure" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">Measure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#Measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.Measure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Base class for Measure distribution.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'base'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.Measure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#Measure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.Measure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">KLDivMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#KLDivMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Kullback-Leibler divergence.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'kl_divergence'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#KLDivMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">JSDivMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#JSDivMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Jensen-Shannon divergence.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'js_divergence'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#JSDivMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">CrossEntropyMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#CrossEntropyMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Cross-Entropy.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'cross_entropy'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#CrossEntropyMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">EntropyMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#EntropyMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Entropy.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entropy'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#EntropyMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">RelatedTTestMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure T-Test for two related distributions on their histogram of the same
+bins.</p>
+<p>Ref:
+<a class="reference external" href="https://en.wikipedia.org/wiki/Student%27s_t-test">https://en.wikipedia.org/wiki/Student%27s_t-test</a></p>
+<p>For continuous features or distributions, the input could be dataset stats
+list.
+For discrete features or distributions, the input could be the tags or the
+categories list.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'t-test'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">stats_to_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.stats_to_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">category_to_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.category_to_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>p</strong> – the first feature or distribution. (stats/tags/categories)</p></li>
+<li><p><strong>q</strong> – the second feature or distribution. (stats/tags/categories)</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the T-Test results object – ([ref](<a class="reference external" href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult">https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult</a>))  # noqa: E501</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.overall_analysis">
+<span id="data-juicer-analysis-overall-analysis-module"></span><h2>data_juicer.analysis.overall_analysis module<a class="headerlink" href="#module-data_juicer.analysis.overall_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.overall_analysis.</span></span><span class="sig-name descname"><span class="pre">OverallAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply analysis on the overall stats, including mean, std, quantiles,
+etc.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to be analyzed</p></li>
+<li><p><strong>output_path</strong> – path to store the analysis results.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">
+<span class="sig-name descname"><span class="pre">refine_single_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">col</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.refine_single_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply overall analysis on the whole dataset based on the describe
+method of pandas.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>percentiles</strong> – percentiles to analyze</p></li>
+<li><p><strong>num_proc</strong> – number of processes to analyze the dataset</p></li>
+<li><p><strong>skip_export</strong> – whether export the results to disk</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the overall analysis result.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.analysis" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.analysis.ColumnWiseAnalysis">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.ColumnWiseAnalysis" title="Link to this definition">¶</a></dt>
@@ -278,14 +756,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-left" title="data_juicer.ops.common" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.config.html" class="btn btn-neutral float-right" title="data_juicer.config" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-left" title="data_juicer.ops.selector package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.config.html" class="btn btn-neutral float-right" title="data_juicer.config package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.config.html b/data_juicer.config.html
index 3f8cee8a9..380bdd74c 100644
--- a/data_juicer.config.html
+++ b/data_juicer.config.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.config &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.config package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.format" href="data_juicer.format.html" />
-    <link rel="prev" title="data_juicer.analysis" href="data_juicer.analysis.html" /> 
+    <link rel="next" title="data_juicer.format package" href="data_juicer.format.html" />
+    <link rel="prev" title="data_juicer.analysis package" href="data_juicer.analysis.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,23 +42,21 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.config</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.config">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -75,7 +73,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.config</li>
+      <li class="breadcrumb-item active">data_juicer.config package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.config.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -85,8 +83,177 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.config">
-<span id="data-juicer-config"></span><h1>data_juicer.config<a class="headerlink" href="#module-data_juicer.config" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-config-package">
+<h1>data_juicer.config package<a class="headerlink" href="#data-juicer-config-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.config.config">
+<span id="data-juicer-config-config-module"></span><h2>data_juicer.config.config module<a class="headerlink" href="#module-data_juicer.config.config" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.init_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">which_entry</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_configs" title="Link to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>initialize the jsonargparse parser and parse configs from one of:</dt><dd><ol class="arabic simple">
+<li><p>POSIX-style commands line args;</p></li>
+<li><p>config files in yaml (json and jsonnet supersets);</p></li>
+<li><p>environment variables</p></li>
+<li><p>hard-coded defaults</p></li>
+</ol>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – list of params, e.g., [’–conifg’, ‘cfg.yaml’], defaut None.</p></li>
+<li><p><strong>which_entry</strong> – which entry to init configs (executor/analyzer)</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a global cfg object used by the Executor or Analyzer</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_ds_cache_dir_and_related_vars">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_ds_cache_dir_and_related_vars</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">new_ds_cache_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_ds_cache_dir_and_related_vars"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_ds_cache_dir_and_related_vars" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.init_setup_from_cfg">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_setup_from_cfg</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_setup_from_cfg"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_setup_from_cfg" title="Link to this definition">¶</a></dt>
+<dd><p>Do some extra setup tasks after parsing config file or command line.</p>
+<ol class="arabic simple">
+<li><p>create working directory and a log directory</p></li>
+<li><p>update cache directory</p></li>
+<li><p>update checkpoint and <cite>temp_dir</cite> of tempfile</p></li>
+</ol>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cfg</strong> – an original cfg</p></li>
+<li><p><strong>cfg</strong> – an updated cfg</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.load_ops_with_stats_meta">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">load_ops_with_stats_meta</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#load_ops_with_stats_meta"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.load_ops_with_stats_meta" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_op_attr">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_op_attr</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_dict</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_op_attr"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_op_attr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.sort_op_by_types_and_names">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">sort_op_by_types_and_names</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name_classes</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#sort_op_by_types_and_names"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.sort_op_by_types_and_names" title="Link to this definition">¶</a></dt>
+<dd><p>Split ops items by op type and sort them to sub-ops by name, then concat
+together.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>op_name_classes</strong> – a list of op modules</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sorted op list , each item is a pair of op_name and
+op_class</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_op_process">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_op_process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">parser</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_op_process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_op_process" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.namespace_to_arg_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">namespace_to_arg_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prefix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">includes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">excludes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#namespace_to_arg_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.namespace_to_arg_list" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.config_backup">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">config_backup</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#config_backup"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.config_backup" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.display_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">display_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#display_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.display_config" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.export_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">export_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'yaml'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_none</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_check</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multifile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#export_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.export_config" title="Link to this definition">¶</a></dt>
+<dd><p>Save the config object, some params are from jsonargparse</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cfg</strong> – cfg object to save (Namespace type)</p></li>
+<li><p><strong>path</strong> – the save path</p></li>
+<li><p><strong>format</strong> – ‘yaml’, ‘json’, ‘json_indented’, ‘parser_mode’</p></li>
+<li><p><strong>skip_none</strong> – Whether to exclude entries whose value is None.</p></li>
+<li><p><strong>skip_check</strong> – Whether to skip parser checking.</p></li>
+<li><p><strong>overwrite</strong> – Whether to overwrite existing files.</p></li>
+<li><p><strong>multifile</strong> – Whether to save multiple config files
+by using the __path__ metas.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.merge_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">merge_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ori_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#merge_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.merge_config" title="Link to this definition">¶</a></dt>
+<dd><p>Merge configuration from new_cfg into ori_cfg</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ori_cfg</strong> – the original configuration object, whose type is
+expected as namespace from jsonargparse</p></li>
+<li><p><strong>new_cfg</strong> – the configuration object to be merged, whose type is
+expected as dict or namespace from jsonargparse</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>cfg_after_merge</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.prepare_side_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">prepare_side_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ori_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#prepare_side_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.prepare_side_configs" title="Link to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>parse the config if ori_config is a string of a config file path with</dt><dd><p>yaml, yml or json format</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>ori_config</strong> – a config dict or a string of a config file path with
+yaml, yml or json format</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a config dict</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.get_init_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">get_init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#get_init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.get_init_configs" title="Link to this definition">¶</a></dt>
+<dd><p>set init configs of datajucer for cfg</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.config">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.config" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.config.init_configs">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.config.</span></span><span class="sig-name descname"><span class="pre">init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">which_entry</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.init_configs" title="Link to this definition">¶</a></dt>
@@ -178,14 +345,15 @@
 </dl>
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-left" title="data_juicer.analysis" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.format.html" class="btn btn-neutral float-right" title="data_juicer.format" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.analysis.html" class="btn btn-neutral float-left" title="data_juicer.analysis package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.format.html" class="btn btn-neutral float-right" title="data_juicer.format package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.core.html b/data_juicer.core.html
index 0dd9f7055..7b84152d5 100644
--- a/data_juicer.core.html
+++ b/data_juicer.core.html
@@ -6,18 +6,18 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.core package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops" href="data_juicer.ops.html" />
+    <link rel="next" title="data_juicer.ops package" href="data_juicer.ops.html" />
     <link rel="prev" title="Welcome to data-juicer’s documentation!" href="index.html" /> 
 </head>
 
@@ -42,16 +42,29 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-adapter-module">data_juicer.core.adapter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-analyzer-module">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-data-module">data_juicer.core.data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-executor-module">data_juicer.core.executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-exporter-module">data_juicer.core.exporter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-ray-data-module">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-ray-executor-module">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#data-juicer-core-tracer-module">data_juicer.core.tracer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-contents">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +81,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.core</li>
+      <li class="breadcrumb-item active">data_juicer.core package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.core.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,8 +91,162 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-core">
-<h1>data_juicer.core<a class="headerlink" href="#data-juicer-core" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-core-package">
+<h1>data_juicer.core package<a class="headerlink" href="#data-juicer-core-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-adapter-module">
+<h2>data_juicer.core.adapter module<a class="headerlink" href="#data-juicer-core-adapter-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-analyzer-module">
+<h2>data_juicer.core.analyzer module<a class="headerlink" href="#data-juicer-core-analyzer-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-data-module">
+<h2>data_juicer.core.data module<a class="headerlink" href="#data-juicer-core-data-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-executor-module">
+<h2>data_juicer.core.executor module<a class="headerlink" href="#data-juicer-core-executor-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-exporter-module">
+<h2>data_juicer.core.exporter module<a class="headerlink" href="#data-juicer-core-exporter-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.core.monitor">
+<span id="data-juicer-core-monitor-module"></span><h2>data_juicer.core.monitor module<a class="headerlink" href="#module-data_juicer.core.monitor" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.resource_monitor">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.monitor.</span></span><span class="sig-name descname"><span class="pre">resource_monitor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mdict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">interval</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#resource_monitor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.resource_monitor" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.monitor.</span></span><span class="sig-name descname"><span class="pre">Monitor</span></span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Monitor resource utilization and other information during the data
+processing.</p>
+<p>Resource utilization dict: (for each func)
+‘’’python
+{</p>
+<blockquote>
+<div><p>‘time’: 10,
+‘sampling interval’: 0.5,
+‘resource’: [</p>
+<blockquote>
+<div><dl class="simple">
+<dt>{</dt><dd><p>‘timestamp’: xxx,
+‘CPU count’: xxx,
+‘GPU free mem.’: xxx.
+…</p>
+</dd>
+</dl>
+<p>},
+{</p>
+<blockquote>
+<div><p>‘timestamp’: xxx,
+‘CPU count’: xxx,
+‘GPU free mem.’: xxx,
+…</p>
+</div></blockquote>
+<p>},</p>
+</div></blockquote>
+<p>]</p>
+</div></blockquote>
+<section id="id1">
+<h3>}<a class="headerlink" href="#id1" title="Link to this heading">¶</a></h3>
+<p>Based on the structure above, the resource utilization analysis result will
+add several extra fields on the first level:
+‘’’python
+{</p>
+<blockquote>
+<div><p>‘time’: 10,
+‘sampling interval’: 0.5,
+‘resource’: […],
+‘resource_analysis’: {</p>
+<blockquote>
+<div><dl class="simple">
+<dt>‘GPU free mem.’: {</dt><dd><p>‘max’: xxx,
+‘min’: xxx,
+‘avg’: xxx,</p>
+</dd>
+</dl>
+</div></blockquote>
+<p>}</p>
+</div></blockquote>
+</section>
+<section id="id2">
+<h3>}<a class="headerlink" href="#id2" title="Link to this heading">¶</a></h3>
+<p>Only those fields in DYNAMIC_FIELDS will be analyzed.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS">
+<span class="sig-name descname"><span class="pre">DYNAMIC_FIELDS</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'Available</span> <span class="pre">mem.',</span> <span class="pre">'CPU</span> <span class="pre">util.',</span> <span class="pre">'Free</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">free</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">used</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">util.',</span> <span class="pre">'Mem.</span> <span class="pre">util.',</span> <span class="pre">'Used</span> <span class="pre">mem.'}</span></em><a class="headerlink" href="#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_all_resources">
+<span class="sig-name descname"><span class="pre">monitor_all_resources</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_all_resources"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_all_resources" title="Link to this definition">¶</a></dt>
+<dd><p>Detect the resource utilization of all distributed nodes.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_current_resources">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">monitor_current_resources</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_current_resources"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_current_resources" title="Link to this definition">¶</a></dt>
+<dd><p>Detect the resource utilization of the current environment/machine.
+All data of “util.” is ratios in the range of [0.0, 1.0]. All data of
+“mem.” is in MB.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.draw_resource_util_graph">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">draw_resource_util_graph</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">store_dir</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.draw_resource_util_graph"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.draw_resource_util_graph" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.analyze_resource_util_list">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">analyze_resource_util_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.analyze_resource_util_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.analyze_resource_util_list" title="Link to this definition">¶</a></dt>
+<dd><p>Analyze the resource utilization for a given resource util list.
+Compute {‘max’, ‘min’, ‘avg’} of resource metrics for each dict item.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.analyze_single_resource_util">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">analyze_single_resource_util</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.analyze_single_resource_util"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.analyze_single_resource_util" title="Link to this definition">¶</a></dt>
+<dd><p>Analyze the resource utilization for a single resource util dict.
+Compute {‘max’, ‘min’, ‘avg’} of each resource metrics.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_func">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">monitor_func</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">func</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_func"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_func" title="Link to this definition">¶</a></dt>
+<dd><p>Process the input dataset and probe related information for each OP in
+the specified operator list.</p>
+<p>For now, we support the following targets to probe:
+“resource”: resource utilization for each OP.
+“speed”: average processing speed for each OP.</p>
+<p>The probe result is a list and each item in the list is the probe
+result for each OP.</p>
+</dd></dl>
+
+</section>
+</dd></dl>
+
+</section>
+<section id="data-juicer-core-ray-data-module">
+<h2>data_juicer.core.ray_data module<a class="headerlink" href="#data-juicer-core-ray-data-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-ray-executor-module">
+<h2>data_juicer.core.ray_executor module<a class="headerlink" href="#data-juicer-core-ray-executor-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="data-juicer-core-tracer-module">
+<h2>data_juicer.core.tracer module<a class="headerlink" href="#data-juicer-core-tracer-module" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-contents">
+<h2>Module contents<a class="headerlink" href="#module-contents" title="Link to this heading">¶</a></h2>
+</section>
 </section>
 
 
@@ -87,7 +254,7 @@ <h1>data_juicer.core<a class="headerlink" href="#data-juicer-core" title="Link t
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
         <a href="index.html" class="btn btn-neutral float-left" title="Welcome to data-juicer’s documentation!" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-right" title="data_juicer.ops" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.html" class="btn btn-neutral float-right" title="data_juicer.ops package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.format.html b/data_juicer.format.html
index c02a0810a..669372694 100644
--- a/data_juicer.format.html
+++ b/data_juicer.format.html
@@ -6,18 +6,18 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.format package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="prev" title="data_juicer.config" href="data_juicer.config.html" /> 
+    <link rel="prev" title="data_juicer.config package" href="data_juicer.config.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -41,27 +41,27 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.format</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format">Module contents</a></li>
 </ul>
 </li>
 </ul>
@@ -80,7 +80,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.format</li>
+      <li class="breadcrumb-item active">data_juicer.format package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.format.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -90,11 +90,548 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.format">
-<span id="data-juicer-format"></span><h1>data_juicer.format<a class="headerlink" href="#module-data_juicer.format" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-format-package">
+<h1>data_juicer.format package<a class="headerlink" href="#data-juicer-format-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.format.csv_formatter">
+<span id="data-juicer-format-csv-formatter-module"></span><h2>data_juicer.format.csv_formatter module<a class="headerlink" href="#module-data_juicer.format.csv_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.csv_formatter.</span></span><span class="sig-name descname"><span class="pre">CsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format csv-type files.</p>
+<p>Default suffixes is <cite>[‘.csv’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.csv']</span></em><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.empty_formatter">
+<span id="data-juicer-format-empty-formatter-module"></span><h2>data_juicer.format.empty_formatter module<a class="headerlink" href="#module-data_juicer.format.empty_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.empty_formatter.</span></span><span class="sig-name descname"><span class="pre">EmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to create empty data.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">[]</span></em><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>length</strong> – The empty dataset length.</p></li>
+<li><p><strong>feature_keys</strong> – feature key name list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.null_value">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">null_value</span></span><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.null_value" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.empty_formatter.</span></span><span class="sig-name descname"><span class="pre">RayEmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to create empty data for ray.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">[]</span></em><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>length</strong> – The empty dataset length.</p></li>
+<li><p><strong>feature_keys</strong> – feature key name list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.null_value">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">null_value</span></span><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.formatter">
+<span id="data-juicer-format-formatter-module"></span><h2>data_juicer.format.formatter module<a class="headerlink" href="#module-data_juicer.format.formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">BaseFormatter</span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Base class to load dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">LocalFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to load a dataset from local files or local
+directory.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset
+directory</p></li>
+<li><p><strong>type</strong> – a packaged dataset module type (json, csv, etc.)</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from dataset file or dataset directory, and unify its
+format.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>formatted dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">RemoteFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to load a dataset from repository of huggingface
+hub.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from HuggingFace, and unify its format.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>formatted dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.add_suffixes">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">add_suffixes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">datasets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DatasetDict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#add_suffixes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.add_suffixes" title="Link to this definition">¶</a></dt>
+<dd><p>Add suffix filed to datasets.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>datasets</strong> – a DatasetDict object</p></li>
+<li><p><strong>num_proc</strong> – number of processes to add suffixes</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>datasets with suffix features.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.unify_format">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">unify_format</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#unify_format"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.unify_format" title="Link to this definition">¶</a></dt>
+<dd><p>Get an unified internal format, conduct the following modifications.</p>
+<ol class="arabic simple">
+<li><p>check keys of dataset</p></li>
+<li><p>filter out those samples with empty or None text</p></li>
+</ol>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>text_keys</strong> – original text key(s) of dataset.</p></li>
+<li><p><strong>num_proc</strong> – number of processes for mapping</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,
+since cfg.text_key may be modified after unifying</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>unified_format_dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.load_formatter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.load_formatter" title="Link to this definition">¶</a></dt>
+<dd><p>Load the appropriate formatter for different types of data formats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – Path to dataset file or dataset directory</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.
+Default: None</p></li>
+<li><p><strong>suffixes</strong> – the suffix of files that will be read. Default:
+None</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dataset formatter.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.json_formatter">
+<span id="data-juicer-format-json-formatter-module"></span><h2>data_juicer.format.json_formatter module<a class="headerlink" href="#module-data_juicer.format.json_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.json_formatter.</span></span><span class="sig-name descname"><span class="pre">JsonFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format json-type files.</p>
+<p>Default suffixes is <cite>[‘.json’, ‘.jsonl’, ‘.jsonl.zst’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.json',</span> <span class="pre">'.jsonl',</span> <span class="pre">'.jsonl.zst']</span></em><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.load">
+<span id="data-juicer-format-load-module"></span><h2>data_juicer.format.load module<a class="headerlink" href="#module-data_juicer.format.load" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.load.load_formatter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.load.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load.load_formatter" title="Link to this definition">¶</a></dt>
+<dd><p>Load mixture formatter for multiple different data formats with an optional
+weight(default 1.0) according to their formats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset directory</p></li>
+<li><p><strong>generated_dataset_config</strong> – Configuration used to create a dataset.
+The dataset will be created from this configuration if provided.
+It must contain the <cite>type</cite> field to specify the dataset name.</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.
+Default: None</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset meta
+info</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dataset formatter.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.mixture_formatter">
+<span id="data-juicer-format-mixture-formatter-module"></span><h2>data_juicer.format.mixture_formatter module<a class="headerlink" href="#module-data_juicer.format.mixture_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.mixture_formatter.</span></span><span class="sig-name descname"><span class="pre">MixtureFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class mixes multiple datasets by randomly selecting samples from
+every dataset and merging them, and then exports the merged datasset as a
+new mixed dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset dir or a list
+of them, optional weights, default 1.0 e.g. <cite>&lt;w1&gt; ds.jsonl
+&lt;w2&gt; ds_dir &lt;w3&gt; ds_file.json</cite></p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>max_samples</strong> – max samples number of mixed dataset.</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">random_sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_number</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.random_sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample" title="Link to this definition">¶</a></dt>
+<dd><p>Randomly sample a subset from a dataset with weight or number,
+if sample number is bigger than 0, we will use sample
+number instead of weight.
+:param dataset: a HuggingFace dataset
+:param weight: sample ratio of dataset
+:param sample_number: sample number of dataset
+:param seed: random sample seed, if None, 42 as default
+:return: a subset of dataset</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a mixed dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>mixed dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.parquet_formatter">
+<span id="data-juicer-format-parquet-formatter-module"></span><h2>data_juicer.format.parquet_formatter module<a class="headerlink" href="#module-data_juicer.format.parquet_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.parquet_formatter.</span></span><span class="sig-name descname"><span class="pre">ParquetFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format parquet-type files.</p>
+<p>Default suffixes is <cite>[‘.parquet’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.parquet']</span></em><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.text_formatter">
+<span id="data-juicer-format-text-formatter-module"></span><h2>data_juicer.format.text_formatter module<a class="headerlink" href="#module-data_juicer.format.text_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_docx">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_docx</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_docx"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_docx" title="Link to this definition">¶</a></dt>
+<dd><p>Extract text from a docx file and save to target path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>fn</strong> – path to input pdf file</p></li>
+<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_pdf">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_pdf</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_pdf"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_pdf" title="Link to this definition">¶</a></dt>
+<dd><p>Extract text from a pdf file and save to target path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>fn</strong> – path to input pdf file</p></li>
+<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">TextFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format text-type files.</p>
+<p>e.g. <cite>[‘.txt’, ‘.pdf’, ‘.cpp’, ‘.docx’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.docx',</span> <span class="pre">'.pdf',</span> <span class="pre">'.txt',</span> <span class="pre">'.md',</span> <span class="pre">'.tex',</span> <span class="pre">'.asm',</span> <span class="pre">'.bat',</span> <span class="pre">'.cmd',</span> <span class="pre">'.c',</span> <span class="pre">'.h',</span> <span class="pre">'.cs',</span> <span class="pre">'.cpp',</span> <span class="pre">'.hpp',</span> <span class="pre">'.c++',</span> <span class="pre">'.h++',</span> <span class="pre">'.cc',</span> <span class="pre">'.hh',</span> <span class="pre">'.C',</span> <span class="pre">'.H',</span> <span class="pre">'.cmake',</span> <span class="pre">'.css',</span> <span class="pre">'.dockerfile',</span> <span class="pre">'.f90',</span> <span class="pre">'.f',</span> <span class="pre">'.f03',</span> <span class="pre">'.f08',</span> <span class="pre">'.f77',</span> <span class="pre">'.f95',</span> <span class="pre">'.for',</span> <span class="pre">'.fpp',</span> <span class="pre">'.go',</span> <span class="pre">'.hs',</span> <span class="pre">'.html',</span> <span class="pre">'.java',</span> <span class="pre">'.js',</span> <span class="pre">'.jl',</span> <span class="pre">'.lua',</span> <span class="pre">'.markdown',</span> <span class="pre">'.php',</span> <span class="pre">'.php3',</span> <span class="pre">'.php4',</span> <span class="pre">'.php5',</span> <span class="pre">'.phps',</span> <span class="pre">'.phpt',</span> <span class="pre">'.pl',</span> <span class="pre">'.pm',</span> <span class="pre">'.pod',</span> <span class="pre">'.perl',</span> <span class="pre">'.ps1',</span> <span class="pre">'.psd1',</span> <span class="pre">'.psm1',</span> <span class="pre">'.py',</span> <span class="pre">'.rb',</span> <span class="pre">'.rs',</span> <span class="pre">'.sql',</span> <span class="pre">'.scala',</span> <span class="pre">'.sh',</span> <span class="pre">'.bash',</span> <span class="pre">'.command',</span> <span class="pre">'.zsh',</span> <span class="pre">'.ts',</span> <span class="pre">'.tsx',</span> <span class="pre">'.vb',</span> <span class="pre">'Dockerfile',</span> <span class="pre">'Makefile',</span> <span class="pre">'.xml',</span> <span class="pre">'.rst',</span> <span class="pre">'.m',</span> <span class="pre">'.smali']</span></em><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>add_suffix</strong> – Whether to add file suffix to datase meta
+info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from local text-type files.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>unified_format_dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.tsv_formatter">
+<span id="data-juicer-format-tsv-formatter-module"></span><h2>data_juicer.format.tsv_formatter module<a class="headerlink" href="#module-data_juicer.format.tsv_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.tsv_formatter.</span></span><span class="sig-name descname"><span class="pre">TsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format tsv-type files.</p>
+<p>Default suffixes is <cite>[‘.tsv’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.tsv']</span></em><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args, e.g. <cite>delimiter = ‘,’</cite></p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.format" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.format.load_formatter">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">BaseFormatter</span></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load_formatter" title="Link to this definition">¶</a></dt>
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load_formatter" title="Link to this definition">¶</a></dt>
 <dd><p>Load mixture formatter for multiple different data formats with an optional
 weight(default 1.0) according to their formats.</p>
 <dl class="field-list simple">
@@ -120,7 +657,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.JsonFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">JsonFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.JsonFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format json-type files.</p>
 <p>Default suffixes is <cite>[‘.json’, ‘.jsonl’, ‘.jsonl.zst’]</cite></p>
 <dl class="py attribute">
@@ -148,7 +685,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.LocalFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">LocalFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.LocalFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from local files or local
 directory.</p>
 <dl class="py method">
@@ -195,7 +732,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.RemoteFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">RemoteFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.RemoteFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from repository of huggingface
 hub.</p>
 <dl class="py method">
@@ -236,7 +773,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.TextFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">TextFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.TextFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format text-type files.</p>
 <p>e.g. <cite>[‘.txt’, ‘.pdf’, ‘.cpp’, ‘.docx’]</cite></p>
 <dl class="py attribute">
@@ -283,7 +820,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.ParquetFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">ParquetFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.ParquetFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format parquet-type files.</p>
 <p>Default suffixes is <cite>[‘.parquet’]</cite></p>
 <dl class="py attribute">
@@ -311,7 +848,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.CsvFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">CsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.CsvFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format csv-type files.</p>
 <p>Default suffixes is <cite>[‘.csv’]</cite></p>
 <dl class="py attribute">
@@ -339,7 +876,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.TsvFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">TsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.TsvFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format tsv-type files.</p>
 <p>Default suffixes is <cite>[‘.tsv’]</cite></p>
 <dl class="py attribute">
@@ -367,7 +904,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.MixtureFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">MixtureFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.MixtureFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class mixes multiple datasets by randomly selecting samples from
 every dataset and merging them, and then exports the merged datasset as a
 new mixed dataset.</p>
@@ -427,7 +964,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.EmptyFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">EmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.EmptyFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to create empty data.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.format.EmptyFormatter.SUFFIXES">
@@ -463,7 +1000,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.RayEmptyFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">RayEmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.RayEmptyFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to create empty data for ray.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.format.RayEmptyFormatter.SUFFIXES">
@@ -496,13 +1033,14 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.config.html" class="btn btn-neutral float-left" title="data_juicer.config" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.config.html" class="btn btn-neutral float-left" title="data_juicer.config package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
     </div>
 
   <hr/>
diff --git a/data_juicer.html b/data_juicer.html
index 9c6b85cb0..cfbc3cc83 100644
--- a/data_juicer.html
+++ b/data_juicer.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer</li>
+      <li class="breadcrumb-item active">data_juicer package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,1037 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer">
-<span id="data-juicer"></span><h1>data_juicer<a class="headerlink" href="#module-data_juicer" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-package">
+<h1>data_juicer package<a class="headerlink" href="#data-juicer-package" title="Link to this heading">¶</a></h1>
+<section id="subpackages">
+<h2>Subpackages<a class="headerlink" href="#subpackages" title="Link to this heading">¶</a></h2>
+<div class="toctree-wrapper compound">
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector.collect()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col"><code class="docutils literal notranslate"><span class="pre">get_row_col()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyze()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_wordcloud()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj_in_string()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity"><code class="docutils literal notranslate"><span class="pre">get_diversity()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap"><code class="docutils literal notranslate"><span class="pre">draw_heatmap()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure"><code class="docutils literal notranslate"><span class="pre">Measure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.name"><code class="docutils literal notranslate"><span class="pre">Measure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure"><code class="docutils literal notranslate"><span class="pre">Measure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.name"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.name"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.name"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.name"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.name"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.stats_to_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.category_to_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.refine_single_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyze()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_wordcloud()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.refine_single_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars"><code class="docutils literal notranslate"><span class="pre">update_ds_cache_dir_and_related_vars()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg"><code class="docutils literal notranslate"><span class="pre">init_setup_from_cfg()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta"><code class="docutils literal notranslate"><span class="pre">load_ops_with_stats_meta()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_op_attr"><code class="docutils literal notranslate"><span class="pre">update_op_attr()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names"><code class="docutils literal notranslate"><span class="pre">sort_op_by_types_and_names()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_op_process"><code class="docutils literal notranslate"><span class="pre">update_op_process()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list"><code class="docutils literal notranslate"><span class="pre">namespace_to_arg_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.config_backup"><code class="docutils literal notranslate"><span class="pre">config_backup()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.display_config"><code class="docutils literal notranslate"><span class="pre">display_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-adapter-module">data_juicer.core.adapter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-analyzer-module">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-data-module">data_juicer.core.data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-executor-module">data_juicer.core.executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-exporter-module">data_juicer.core.exporter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.resource_monitor"><code class="docutils literal notranslate"><span class="pre">resource_monitor()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor"><code class="docutils literal notranslate"><span class="pre">Monitor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS"><code class="docutils literal notranslate"><span class="pre">Monitor.DYNAMIC_FIELDS</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__"><code class="docutils literal notranslate"><span class="pre">Monitor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_all_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_current_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph"><code class="docutils literal notranslate"><span class="pre">Monitor.draw_resource_util_graph()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_resource_util_list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_single_resource_util()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_func()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-data-module">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-executor-module">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-tracer-module">data_juicer.core.tracer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-contents">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter"><code class="docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">BaseFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes"><code class="docutils literal notranslate"><span class="pre">add_suffixes()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.unify_format"><code class="docutils literal notranslate"><span class="pre">unify_format()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.random_sample()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_docx()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_pdf()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TextFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TextFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.random_sample()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html">data_juicer.ops.aggregator package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.meta_tags_aggregator">data_juicer.ops.aggregator.meta_tags_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html">data_juicer.ops.grouper package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_reverse_grouper">data_juicer.ops.grouper.naive_reverse_grouper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">data_juicer.ops.mapper.dialog_intent_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">data_juicer.ops.mapper.dialog_sentiment_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">data_juicer.ops.mapper.dialog_topic_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper">data_juicer.ops.mapper.query_intent_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">data_juicer.ops.mapper.query_sentiment_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper">data_juicer.ops.mapper.query_topic_detection_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector">data_juicer.ops.selector.tags_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list"><code class="docutils literal notranslate"><span class="pre">convert_list_dict_to_dict_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict"><code class="docutils literal notranslate"><span class="pre">convert_dict_list_to_list_dict()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python"><code class="docutils literal notranslate"><span class="pre">convert_arrow_to_python()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception"><code class="docutils literal notranslate"><span class="pre">catch_map_batches_exception()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception"><code class="docutils literal notranslate"><span class="pre">catch_map_single_exception()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP"><code class="docutils literal notranslate"><span class="pre">OP</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__"><code class="docutils literal notranslate"><span class="pre">OP.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op"><code class="docutils literal notranslate"><span class="pre">OP.is_batched_op()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.process"><code class="docutils literal notranslate"><span class="pre">OP.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda"><code class="docutils literal notranslate"><span class="pre">OP.use_cuda()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np"><code class="docutils literal notranslate"><span class="pre">OP.runtime_np()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters"><code class="docutils literal notranslate"><span class="pre">OP.remove_extra_parameters()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters"><code class="docutils literal notranslate"><span class="pre">OP.add_parameters()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.run"><code class="docutils literal notranslate"><span class="pre">OP.run()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history"><code class="docutils literal notranslate"><span class="pre">OP.empty_history()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__"><code class="docutils literal notranslate"><span class="pre">Mapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched"><code class="docutils literal notranslate"><span class="pre">Mapper.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single"><code class="docutils literal notranslate"><span class="pre">Mapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run"><code class="docutils literal notranslate"><span class="pre">Mapper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__"><code class="docutils literal notranslate"><span class="pre">Filter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched"><code class="docutils literal notranslate"><span class="pre">Filter.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single"><code class="docutils literal notranslate"><span class="pre">Filter.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.run"><code class="docutils literal notranslate"><span class="pre">Filter.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">Deduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run"><code class="docutils literal notranslate"><span class="pre">Deduplicator.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__"><code class="docutils literal notranslate"><span class="pre">Selector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.run"><code class="docutils literal notranslate"><span class="pre">Selector.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__"><code class="docutils literal notranslate"><span class="pre">Grouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process"><code class="docutils literal notranslate"><span class="pre">Grouper.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run"><code class="docutils literal notranslate"><span class="pre">Grouper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__"><code class="docutils literal notranslate"><span class="pre">Aggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single"><code class="docutils literal notranslate"><span class="pre">Aggregator.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run"><code class="docutils literal notranslate"><span class="pre">Aggregator.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators"><code class="docutils literal notranslate"><span class="pre">fuse_operators()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group"><code class="docutils literal notranslate"><span class="pre">fuse_filter_group()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter"><code class="docutils literal notranslate"><span class="pre">FusedFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FusedFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FusedFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FusedFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.__init__"><code class="docutils literal notranslate"><span class="pre">Filter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.process_batched"><code class="docutils literal notranslate"><span class="pre">Filter.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.process_single"><code class="docutils literal notranslate"><span class="pre">Filter.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.run"><code class="docutils literal notranslate"><span class="pre">Filter.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.__init__"><code class="docutils literal notranslate"><span class="pre">Mapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.process_batched"><code class="docutils literal notranslate"><span class="pre">Mapper.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.process_single"><code class="docutils literal notranslate"><span class="pre">Mapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.run"><code class="docutils literal notranslate"><span class="pre">Mapper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">Deduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.run"><code class="docutils literal notranslate"><span class="pre">Deduplicator.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.__init__"><code class="docutils literal notranslate"><span class="pre">Selector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.run"><code class="docutils literal notranslate"><span class="pre">Selector.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.__init__"><code class="docutils literal notranslate"><span class="pre">Grouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.process"><code class="docutils literal notranslate"><span class="pre">Grouper.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.run"><code class="docutils literal notranslate"><span class="pre">Grouper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.__init__"><code class="docutils literal notranslate"><span class="pre">Aggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.process_single"><code class="docutils literal notranslate"><span class="pre">Aggregator.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.run"><code class="docutils literal notranslate"><span class="pre">Aggregator.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.tools.html">data_juicer.tools package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.tools.html#module-data_juicer.tools">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset"><code class="docutils literal notranslate"><span class="pre">load_words_asset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller"><code class="docutils literal notranslate"><span class="pre">AutoInstaller</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.check()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.install()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl"><code class="docutils literal notranslate"><span class="pre">DatasetCacheControl</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__"><code class="docutils literal notranslate"><span class="pre">DatasetCacheControl.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control"><code class="docutils literal notranslate"><span class="pre">dataset_cache_control()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager"><code class="docutils literal notranslate"><span class="pre">CheckpointManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.get_left_process_list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ckpt()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.record()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ops_to_skip()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.save_ckpt()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.load_ckpt()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number"><code class="docutils literal notranslate"><span class="pre">stats_to_number()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash"><code class="docutils literal notranslate"><span class="pre">dict_to_hash()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_access"><code class="docutils literal notranslate"><span class="pre">nested_access()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list"><code class="docutils literal notranslate"><span class="pre">is_string_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit"><code class="docutils literal notranslate"><span class="pre">avg_split_string_list_under_limit()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.is_float"><code class="docutils literal notranslate"><span class="pre">is_float()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.FileLock"><code class="docutils literal notranslate"><span class="pre">FileLock</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Extractor"><code class="docutils literal notranslate"><span class="pre">Extractor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract"><code class="docutils literal notranslate"><span class="pre">Extractor.extract()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor"><code class="docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress"><code class="docutils literal notranslate"><span class="pre">BaseCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor"><code class="docutils literal notranslate"><span class="pre">ZstdCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress"><code class="docutils literal notranslate"><span class="pre">ZstdCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor"><code class="docutils literal notranslate"><span class="pre">Lz4Compressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress"><code class="docutils literal notranslate"><span class="pre">Lz4Compressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor"><code class="docutils literal notranslate"><span class="pre">GzipCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress"><code class="docutils literal notranslate"><span class="pre">GzipCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor"><code class="docutils literal notranslate"><span class="pre">Compressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compressors"><code class="docutils literal notranslate"><span class="pre">Compressor.compressors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress"><code class="docutils literal notranslate"><span class="pre">Compressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager"><code class="docutils literal notranslate"><span class="pre">CompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CompressManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CompressManager.compress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CompressManager.decompress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.compress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.decompress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.format_cache_file_name()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.cleanup_cache_files()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressionOff"><code class="docutils literal notranslate"><span class="pre">CompressionOff</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.compress"><code class="docutils literal notranslate"><span class="pre">compress()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.decompress"><code class="docutils literal notranslate"><span class="pre">decompress()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files"><code class="docutils literal notranslate"><span class="pre">cleanup_compressed_cache_files()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields"><code class="docutils literal notranslate"><span class="pre">Fields</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.stats"><code class="docutils literal notranslate"><span class="pre">Fields.stats</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.meta"><code class="docutils literal notranslate"><span class="pre">Fields.meta</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.batch_meta"><code class="docutils literal notranslate"><span class="pre">Fields.batch_meta</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.context"><code class="docutils literal notranslate"><span class="pre">Fields.context</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.suffix"><code class="docutils literal notranslate"><span class="pre">Fields.suffix</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_file"><code class="docutils literal notranslate"><span class="pre">Fields.source_file</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.multimodal_data_output_dir"><code class="docutils literal notranslate"><span class="pre">Fields.multimodal_data_output_dir</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys"><code class="docutils literal notranslate"><span class="pre">BatchMetaKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys.entity_attribute"><code class="docutils literal notranslate"><span class="pre">BatchMetaKeys.entity_attribute</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys.most_relavant_entities"><code class="docutils literal notranslate"><span class="pre">BatchMetaKeys.most_relavant_entities</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys"><code class="docutils literal notranslate"><span class="pre">MetaKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_sentiment_intensity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity_analysis"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_sentiment_intensity_analysis</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_sentiment_label"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_sentiment_label</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_sentiment_score"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_sentiment_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_sentiment_labels</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels_analysis"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_sentiment_labels_analysis</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_intent_labels"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_intent_labels</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_intent_labels_analysis"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_intent_labels_analysis</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_intent_label"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_intent_label</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_intent_score"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_intent_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_topic_labels"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_topic_labels</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_topic_labels_analysis"><code class="docutils literal notranslate"><span class="pre">MetaKeys.dialog_topic_labels_analysis</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_topic_label"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_topic_label</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_topic_score"><code class="docutils literal notranslate"><span class="pre">MetaKeys.query_topic_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_frame_tags"><code class="docutils literal notranslate"><span class="pre">MetaKeys.video_frame_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_audio_tags"><code class="docutils literal notranslate"><span class="pre">MetaKeys.video_audio_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_frames"><code class="docutils literal notranslate"><span class="pre">MetaKeys.video_frames</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.image_tags"><code class="docutils literal notranslate"><span class="pre">MetaKeys.image_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.event_description"><code class="docutils literal notranslate"><span class="pre">MetaKeys.event_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relevant_characters"><code class="docutils literal notranslate"><span class="pre">MetaKeys.relevant_characters</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.main_entities"><code class="docutils literal notranslate"><span class="pre">MetaKeys.main_entities</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attributes"><code class="docutils literal notranslate"><span class="pre">MetaKeys.attributes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attribute_descriptions"><code class="docutils literal notranslate"><span class="pre">MetaKeys.attribute_descriptions</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attribute_support_texts"><code class="docutils literal notranslate"><span class="pre">MetaKeys.attribute_support_texts</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.nickname"><code class="docutils literal notranslate"><span class="pre">MetaKeys.nickname</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity"><code class="docutils literal notranslate"><span class="pre">MetaKeys.entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_name"><code class="docutils literal notranslate"><span class="pre">MetaKeys.entity_name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_type"><code class="docutils literal notranslate"><span class="pre">MetaKeys.entity_type</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_description"><code class="docutils literal notranslate"><span class="pre">MetaKeys.entity_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation"><code class="docutils literal notranslate"><span class="pre">MetaKeys.relation</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.source_entity"><code class="docutils literal notranslate"><span class="pre">MetaKeys.source_entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.target_entity"><code class="docutils literal notranslate"><span class="pre">MetaKeys.target_entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_description"><code class="docutils literal notranslate"><span class="pre">MetaKeys.relation_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_keywords"><code class="docutils literal notranslate"><span class="pre">MetaKeys.relation_keywords</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_strength"><code class="docutils literal notranslate"><span class="pre">MetaKeys.relation_strength</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.keyword"><code class="docutils literal notranslate"><span class="pre">MetaKeys.keyword</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.support_text"><code class="docutils literal notranslate"><span class="pre">MetaKeys.support_text</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.role_relation"><code class="docutils literal notranslate"><span class="pre">MetaKeys.role_relation</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta"><code class="docutils literal notranslate"><span class="pre">StatsKeysMeta</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log"><code class="docutils literal notranslate"><span class="pre">StatsKeysMeta.get_access_log()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.alpha_token_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.alnum_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.avg_line_length"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.avg_line_length</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.char_rep_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.flagged_words_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.lang</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.lang_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.max_line_length"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.max_line_length</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.perplexity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.perplexity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.special_char_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.stopwords_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.text_len"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.text_len</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_action"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_action</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_dependency_edges</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_token"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_token</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_words"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.word_rep_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.aspect_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_width"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_width</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_height"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_height</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_sizes"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_sizes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_detections"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_detections</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_counts"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_counts</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_aesthetics_scores</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_nsfw_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_watermark_prob</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_pair_similarity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_duration"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_duration</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_nmf_snr</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_sizes"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_sizes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_duration"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_duration</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_aspect_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_width"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_width</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_height"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_height</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_ocr_area_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_aesthetic_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_frames_aesthetics_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_motion_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_motion_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_nsfw_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_watermark_prob</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_text_similarity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_text_matching_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.phrase_grounding_recall</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_frames_text_similarity</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeys"><code class="docutils literal notranslate"><span class="pre">StatsKeys</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys"><code class="docutils literal notranslate"><span class="pre">HashKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.uid"><code class="docutils literal notranslate"><span class="pre">HashKeys.uid</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.hash"><code class="docutils literal notranslate"><span class="pre">HashKeys.hash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.minhash"><code class="docutils literal notranslate"><span class="pre">HashKeys.minhash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.simhash"><code class="docutils literal notranslate"><span class="pre">HashKeys.simhash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.imagehash"><code class="docutils literal notranslate"><span class="pre">HashKeys.imagehash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.videohash"><code class="docutils literal notranslate"><span class="pre">HashKeys.videohash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.is_unique"><code class="docutils literal notranslate"><span class="pre">HashKeys.is_unique</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars"><code class="docutils literal notranslate"><span class="pre">InterVars</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.lines"><code class="docutils literal notranslate"><span class="pre">InterVars.lines</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.words"><code class="docutils literal notranslate"><span class="pre">InterVars.words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.refined_words"><code class="docutils literal notranslate"><span class="pre">InterVars.refined_words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_images"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_images</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_audios"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_audios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_videos"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_videos</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.sampled_frames"><code class="docutils literal notranslate"><span class="pre">InterVars.sampled_frames</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.hook"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.hook</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.dj_configs"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.dj_configs</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.meta_name"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.meta_name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.extra_configs"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.extra_configs</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.follow_read"><code class="docutils literal notranslate"><span class="pre">follow_read()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix"><code class="docutils literal notranslate"><span class="pre">find_files_with_suffix()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path"><code class="docutils literal notranslate"><span class="pre">is_absolute_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename"><code class="docutils literal notranslate"><span class="pre">add_suffix_to_filename()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists"><code class="docutils literal notranslate"><span class="pre">create_directory_if_not_exists()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename"><code class="docutils literal notranslate"><span class="pre">transfer_filename()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.copy_data"><code class="docutils literal notranslate"><span class="pre">copy_data()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher"><code class="docutils literal notranslate"><span class="pre">Hasher</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.dispatch"><code class="docutils literal notranslate"><span class="pre">Hasher.dispatch</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__"><code class="docutils literal notranslate"><span class="pre">Hasher.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes"><code class="docutils literal notranslate"><span class="pre">Hasher.hash_bytes()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default"><code class="docutils literal notranslate"><span class="pre">Hasher.hash_default()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash"><code class="docutils literal notranslate"><span class="pre">Hasher.hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update"><code class="docutils literal notranslate"><span class="pre">Hasher.update()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest"><code class="docutils literal notranslate"><span class="pre">Hasher.hexdigest()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint"><code class="docutils literal notranslate"><span class="pre">update_fingerprint()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint"><code class="docutils literal notranslate"><span class="pre">generate_fingerprint()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader"><code class="docutils literal notranslate"><span class="pre">LazyLoader</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__"><code class="docutils literal notranslate"><span class="pre">LazyLoader.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name"><code class="docutils literal notranslate"><span class="pre">get_caller_name()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.write()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.getvalue()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.flush()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output"><code class="docutils literal notranslate"><span class="pre">redirect_sys_output()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path"><code class="docutils literal notranslate"><span class="pre">get_log_file_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger"><code class="docutils literal notranslate"><span class="pre">setup_logger()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints"><code class="docutils literal notranslate"><span class="pre">HiddenPrints</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens"><code class="docutils literal notranslate"><span class="pre">SpecialTokens</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.image"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.image</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.audio"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.audio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.video"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.video</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.eoc"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.eoc</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE"><code class="docutils literal notranslate"><span class="pre">AV_STREAM_THREAD_TYPE</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens"><code class="docutils literal notranslate"><span class="pre">get_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens"><code class="docutils literal notranslate"><span class="pre">remove_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens"><code class="docutils literal notranslate"><span class="pre">remove_non_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context"><code class="docutils literal notranslate"><span class="pre">load_data_with_context()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images"><code class="docutils literal notranslate"><span class="pre">load_images()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte"><code class="docutils literal notranslate"><span class="pre">load_images_byte()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image"><code class="docutils literal notranslate"><span class="pre">load_image()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte"><code class="docutils literal notranslate"><span class="pre">load_image_byte()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64"><code class="docutils literal notranslate"><span class="pre">image_path_to_base64()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64"><code class="docutils literal notranslate"><span class="pre">image_byte_to_base64()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv"><code class="docutils literal notranslate"><span class="pre">pil_to_opencv()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces"><code class="docutils literal notranslate"><span class="pre">detect_faces()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size"><code class="docutils literal notranslate"><span class="pre">get_file_size()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.iou"><code class="docutils literal notranslate"><span class="pre">iou()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions"><code class="docutils literal notranslate"><span class="pre">calculate_resized_dimensions()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios"><code class="docutils literal notranslate"><span class="pre">load_audios()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio"><code class="docutils literal notranslate"><span class="pre">load_audio()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos"><code class="docutils literal notranslate"><span class="pre">load_videos()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_video"><code class="docutils literal notranslate"><span class="pre">load_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration"><code class="docutils literal notranslate"><span class="pre">get_video_duration()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video"><code class="docutils literal notranslate"><span class="pre">get_decoded_frames_from_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds"><code class="docutils literal notranslate"><span class="pre">cut_video_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame"><code class="docutils literal notranslate"><span class="pre">process_each_frame()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds"><code class="docutils literal notranslate"><span class="pre">extract_key_frames_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames"><code class="docutils literal notranslate"><span class="pre">extract_key_frames()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds"><code class="docutils literal notranslate"><span class="pre">get_key_frame_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds"><code class="docutils literal notranslate"><span class="pre">extract_video_frames_uniformly_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly"><code class="docutils literal notranslate"><span class="pre">extract_video_frames_uniformly()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video"><code class="docutils literal notranslate"><span class="pre">extract_audio_from_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes"><code class="docutils literal notranslate"><span class="pre">size_to_bytes()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders"><code class="docutils literal notranslate"><span class="pre">insert_texts_after_placeholders()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds"><code class="docutils literal notranslate"><span class="pre">timecode_string_to_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi"><code class="docutils literal notranslate"><span class="pre">parse_string_to_roi()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.close_video"><code class="docutils literal notranslate"><span class="pre">close_video()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link"><code class="docutils literal notranslate"><span class="pre">get_backup_model_link()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model"><code class="docutils literal notranslate"><span class="pre">check_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel"><code class="docutils literal notranslate"><span class="pre">APIModel</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__"><code class="docutils literal notranslate"><span class="pre">APIModel.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model"><code class="docutils literal notranslate"><span class="pre">prepare_api_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model"><code class="docutils literal notranslate"><span class="pre">prepare_diffusion_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model"><code class="docutils literal notranslate"><span class="pre">prepare_fasttext_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model"><code class="docutils literal notranslate"><span class="pre">prepare_huggingface_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model"><code class="docutils literal notranslate"><span class="pre">prepare_kenlm_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model"><code class="docutils literal notranslate"><span class="pre">prepare_nltk_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier"><code class="docutils literal notranslate"><span class="pre">prepare_opencv_classifier()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model"><code class="docutils literal notranslate"><span class="pre">prepare_recognizeAnything_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model"><code class="docutils literal notranslate"><span class="pre">prepare_sentencepiece_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang"><code class="docutils literal notranslate"><span class="pre">prepare_sentencepiece_for_lang()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model"><code class="docutils literal notranslate"><span class="pre">prepare_simple_aesthetics_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model"><code class="docutils literal notranslate"><span class="pre">prepare_spacy_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model"><code class="docutils literal notranslate"><span class="pre">prepare_video_blip_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model"><code class="docutils literal notranslate"><span class="pre">prepare_vllm_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model"><code class="docutils literal notranslate"><span class="pre">prepare_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model"><code class="docutils literal notranslate"><span class="pre">get_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.free_models"><code class="docutils literal notranslate"><span class="pre">free_models()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp"><code class="docutils literal notranslate"><span class="pre">setup_mp()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory"><code class="docutils literal notranslate"><span class="pre">get_min_cuda_memory()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np"><code class="docutils literal notranslate"><span class="pre">calculate_np()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry"><code class="docutils literal notranslate"><span class="pre">Registry</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__"><code class="docutils literal notranslate"><span class="pre">Registry.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name"><code class="docutils literal notranslate"><span class="pre">Registry.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules"><code class="docutils literal notranslate"><span class="pre">Registry.modules</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list"><code class="docutils literal notranslate"><span class="pre">Registry.list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get"><code class="docutils literal notranslate"><span class="pre">Registry.get()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module"><code class="docutils literal notranslate"><span class="pre">Registry.register_module()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info"><code class="docutils literal notranslate"><span class="pre">query_cuda_info()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count"><code class="docutils literal notranslate"><span class="pre">get_cpu_count()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization"><code class="docutils literal notranslate"><span class="pre">get_cpu_utilization()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info"><code class="docutils literal notranslate"><span class="pre">query_mem_info()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG"><code class="docutils literal notranslate"><span class="pre">TEST_TAG()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag"><code class="docutils literal notranslate"><span class="pre">set_clear_model_flag()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.setUpClass()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.tearDownClass()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.tearDown()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.generate_dataset()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.run_single_op()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.assertDatasetEqual()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</div>
+</section>
+<section id="module-data_juicer">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.cuda_device_count">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.</span></span><span class="sig-name descname"><span class="pre">cuda_device_count</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer.html#cuda_device_count"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.cuda_device_count" title="Link to this definition">¶</a></dt>
@@ -88,6 +1117,7 @@
 <span class="sig-prename descclassname"><span class="pre">data_juicer.</span></span><span class="sig-name descname"><span class="pre">is_cuda_available</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer.html#is_cuda_available"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.is_cuda_available" title="Link to this definition">¶</a></dt>
 <dd></dd></dl>
 
+</section>
 </section>
 
 
diff --git a/data_juicer.ops.aggregator.html b/data_juicer.ops.aggregator.html
index 218627e3b..40361a53b 100644
--- a/data_juicer.ops.aggregator.html
+++ b/data_juicer.ops.aggregator.html
@@ -6,17 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.aggregator &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.aggregator package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" /> 
+    <link rel="search" title="Search" href="search.html" />
+    <link rel="next" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" />
+    <link rel="prev" title="data_juicer.ops package" href="data_juicer.ops.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -39,17 +41,25 @@
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
+<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +76,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.aggregator</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.aggregator package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.aggregator.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,12 +87,371 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.aggregator">
-<span id="data-juicer-ops-aggregator"></span><h1>data_juicer.ops.aggregator<a class="headerlink" href="#module-data_juicer.ops.aggregator" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-aggregator-package">
+<h1>data_juicer.ops.aggregator package<a class="headerlink" href="#data-juicer-ops-aggregator-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.aggregator.entity_attribute_aggregator">
+<span id="data-juicer-ops-aggregator-entity-attribute-aggregator-module"></span><h2>data_juicer.ops.aggregator.entity_attribute_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.entity_attribute_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.entity_attribute_aggregator.</span></span><span class="sig-name descname"><span class="pre">EntityAttributeAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity_attribute'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Return conclusion of the given entity’s attribute from some docs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定与`{entity}`相关的一些文档，总结`{entity}`的`{attribute}`。\n要求：\n-</span> <span class="pre">尽量使用原文专有名词\n-</span> <span class="pre">联系上下文，自动忽略上下文不一致的细节错误\n-</span> <span class="pre">只对文档中与`{entity}`的`{attribute}`有关的内容进行总结\n-</span> <span class="pre">字数限制在**{word_limit}字以内**\n-</span> <span class="pre">要求输出格式如下：\n#</span> <span class="pre">{entity}\n##</span> <span class="pre">{attribute}\n...\n{example}'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_EXAMPLE_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-</span> <span class="pre">例如，根据相关文档总结`孙悟空`的`出身背景`，**100字**以内的样例如下：\n`孙悟空`的`出身背景`总结：\n#</span> <span class="pre">孙悟空\n##</span> <span class="pre">出身背景\n号称齐天大圣，花果山水帘洞的美猴王、西行取经队伍中的大师兄。师父是唐僧玄奘，曾拜菩提祖师学艺。亲生父母未知，自石头中孕育而生。自认斗战胜佛，最怕观世音菩萨和紧箍咒。\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'`{entity}`的相关文档：\n{sub_docs}\n\n`{entity}`的`{attribute}`总结：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\s*{entity}\\s*\\#\\#\\s*{attribute}\\s*(.*?)\\Z'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity_attribute'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity: The given entity.
+:param attribute: The given attribute.
+:param input_key: The input key in the meta field of the samples.</p>
+<blockquote>
+<div><p>It is “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output key in the aggregation field of the
+samples. It is “entity_attribute” in default.</p></li>
+<li><p><strong>word_limit</strong> – Prompt the output length.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – The system prompt template.</p></li>
+<li><p><strong>example_prompt</strong> – The example part in the system prompt.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>output_pattern_template</strong> – The output template.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">
+<span class="sig-name descname"><span class="pre">attribute_summary</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.attribute_summary"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator.meta_tags_aggregator">
+<span id="data-juicer-ops-aggregator-meta-tags-aggregator-module"></span><h2>data_juicer.ops.aggregator.meta_tags_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.meta_tags_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.meta_tags_aggregator.</span></span><span class="sig-name descname"><span class="pre">MetaTagsAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">meta_tag_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Merge similar meta tags to one tag.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一些标签以及这些标签出现的频次，合并意思相近的标签。\n要求：\n-</span> <span class="pre">任务分为两种情况，一种是给定合并后的标签，需要将合并前的标签映射到这些标签。如果给定的合并后的标签中有类似“其他”这种标签，将无法归类的标签合并到“其他”。以下是这种情况的一个样例：\n合并后的标签应限定在[科技,</span> <span class="pre">健康,</span> <span class="pre">其他]中。\n|</span> <span class="pre">合并前标签</span> <span class="pre">|</span> <span class="pre">频次</span> <span class="pre">|\n|</span> <span class="pre">------</span> <span class="pre">|</span> <span class="pre">------</span> <span class="pre">|\n|</span> <span class="pre">医疗</span> <span class="pre">|</span> <span class="pre">20</span> <span class="pre">|\n|</span> <span class="pre">信息技术</span> <span class="pre">|</span> <span class="pre">16</span> <span class="pre">|\n|</span> <span class="pre">学习</span> <span class="pre">|</span> <span class="pre">19</span> <span class="pre">|\n|</span> <span class="pre">气候变化</span> <span class="pre">|</span> <span class="pre">22</span> <span class="pre">|\n|</span> <span class="pre">人工智能</span> <span class="pre">|</span> <span class="pre">11</span> <span class="pre">|\n|</span> <span class="pre">养生</span> <span class="pre">|</span> <span class="pre">17</span> <span class="pre">|\n|</span> <span class="pre">科学创新</span> <span class="pre">|</span> <span class="pre">10</span> <span class="pre">|\n\n##</span> <span class="pre">分析：“信息技术”、“人工智能”、“科学创新”都属于“科技”类别，“医疗”和“养生”跟“健康”有关联，“学习”、“气候变化”和“科技”还有“健康”关联不强，应该被归为“其他”。\n##</span> <span class="pre">标签合并：\n**</span> <span class="pre">医疗归类为健康</span> <span class="pre">**\n**</span> <span class="pre">信息技术归类为科技</span> <span class="pre">**\n**</span> <span class="pre">学习归类为其他</span> <span class="pre">**\n**</span> <span class="pre">气候变化归类为其他</span> <span class="pre">**\n**</span> <span class="pre">人工智能归类为科技</span> <span class="pre">**\n**</span> <span class="pre">养生归类为健康</span> <span class="pre">**\n**</span> <span class="pre">科学创新归类为科技</span> <span class="pre">**\n-</span> <span class="pre">另外一种情况没有事先给定合并后的标签，需要生成合理的标签类别：|</span> <span class="pre">合并前标签</span> <span class="pre">|</span> <span class="pre">频次</span> <span class="pre">|\n|</span> <span class="pre">------</span> <span class="pre">|</span> <span class="pre">------</span> <span class="pre">|\n|</span> <span class="pre">医疗</span> <span class="pre">|</span> <span class="pre">20</span> <span class="pre">|\n|</span> <span class="pre">信息技术</span> <span class="pre">|</span> <span class="pre">16</span> <span class="pre">|\n|</span> <span class="pre">学习</span> <span class="pre">|</span> <span class="pre">2</span> <span class="pre">|\n|</span> <span class="pre">气候变化</span> <span class="pre">|</span> <span class="pre">1</span> <span class="pre">|\n|</span> <span class="pre">人工智能</span> <span class="pre">|</span> <span class="pre">11</span> <span class="pre">|\n|</span> <span class="pre">养生</span> <span class="pre">|</span> <span class="pre">17</span> <span class="pre">|\n|</span> <span class="pre">科学创新</span> <span class="pre">|</span> <span class="pre">10</span> <span class="pre">|\n\n##</span> <span class="pre">分析：“信息技术”、“人工智能”、“科学创新”这三个标签比较相近，归为同一类，都属于“科技”类别，“医疗”和“养生”都跟“健康”有关系，可以归类为“健康”，“学习”和“气候变化”跟其他标签关联度不强，且频次较低，统一归类为“其他”。\n##</span> <span class="pre">标签合并：\n**</span> <span class="pre">医疗归类为健康</span> <span class="pre">**\n**</span> <span class="pre">信息技术归类为科技</span> <span class="pre">**\n**</span> <span class="pre">学习归类为其他</span> <span class="pre">**\n**</span> <span class="pre">气候变化归类为其他</span> <span class="pre">**\n**</span> <span class="pre">人工智能归类为科技</span> <span class="pre">**\n**</span> <span class="pre">养生归类为健康</span> <span class="pre">**\n**</span> <span class="pre">科学创新归类为科技</span> <span class="pre">**\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{target_tag_str}|</span> <span class="pre">合并前标签</span> <span class="pre">|</span> <span class="pre">频次</span> <span class="pre">|\n|</span> <span class="pre">------</span> <span class="pre">|</span> <span class="pre">------</span> <span class="pre">|\n{tag_strs}'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_TARGET_TAG_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'合并后的标签应限定在[{target_tags}]中。\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_TAG_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'|</span> <span class="pre">{tag}</span> <span class="pre">|</span> <span class="pre">{cnt}</span> <span class="pre">|'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\*\\*\\s*(\\w+)归类为(\\w+)\\s*\\*\\*'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">meta_tag_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param meta_tag_key: The key of the meta tag to be mapped.
+:param target_tags: The tags that is supposed to be mapped to.
+:param api_endpoint: URL endpoint for the API.
+:param response_path: Path to extract content from the API response.</p>
+<blockquote>
+<div><p>Defaults to ‘choices.0.message.content’.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>system_prompt</strong> – The system prompt.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>target_tag_template</strong> – The tap template for target tags.</p></li>
+<li><p><strong>tag_template</strong> – The tap template for each tag and its
+frequency.</p></li>
+<li><p><strong>output_pattern</strong> – The output pattern.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map">
+<span class="sig-name descname"><span class="pre">meta_map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">meta_cnts</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator.meta_map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">
+<span id="data-juicer-ops-aggregator-most-relavant-entities-aggregator-module"></span><h2>data_juicer.ops.aggregator.most_relavant_entities_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.most_relavant_entities_aggregator.</span></span><span class="sig-name descname"><span class="pre">MostRelavantEntitiesAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'most_relavant_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Extract entities closely related to a given entity from some texts,
+and sort them in descending order of importance.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定与`{entity}`相关的一些文档，总结一些与`{entity}`最为相关的`{entity_type}`。\n要求：\n-</span> <span class="pre">不用包含与{entity}为同一{entity_type}的{entity_type}。\n-</span> <span class="pre">请按照人物的重要性进行排序，**越重要人物在列表越前面**。\n-</span> <span class="pre">你的返回格式如下：\n##</span> <span class="pre">分析\n你对各个{entity_type}与{entity}关联度的分析\n##</span> <span class="pre">列表\n人物1,</span> <span class="pre">人物2,</span> <span class="pre">人物3,</span> <span class="pre">...'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'`{entity}`的相关文档：\n{sub_docs}\n\n与`{entity}`最相关的一些`{entity_type}`：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\s*列表\\s*(.*?)\\Z'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'most_relavant_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity: The given entity.
+:param query_entity_type: The type of queried relavant entities.
+:param input_key: The input key in the meta field of the samples.</p>
+<blockquote>
+<div><p>It is “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output key in the aggregation field of the
+samples. It is “most_relavant_entities” in default.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – The system prompt template.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>output_pattern</strong> – The output pattern.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">
+<span class="sig-name descname"><span class="pre">query_most_relavant_entities</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.query_most_relavant_entities"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator.nested_aggregator">
+<span id="data-juicer-ops-aggregator-nested-aggregator-module"></span><h2>data_juicer.ops.aggregator.nested_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.nested_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.nested_aggregator.</span></span><span class="sig-name descname"><span class="pre">NestedAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Considering the limitation of input length, nested aggregate
+contents for each given number of samples.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一些文档碎片，将这些文档整合成一个文档总结。\n要求：\n-</span> <span class="pre">总结的长度与文档碎片的平均长度基本一致\n-</span> <span class="pre">不要包含主观看法\n-</span> <span class="pre">注意要尽可能保留文本的专有名词\n-</span> <span class="pre">只输出文档总结不要输出其他内容\n-</span> <span class="pre">参考如下样例：\n文档碎片：\n唐僧师徒四人行至白虎岭，遇上了变化多端的白骨精。\n\n文档碎片：\n白骨精首次变身少女送斋，被孙悟空识破打死，唐僧责怪悟空。\n\n文档碎片：\n妖怪再变老妇寻女，又被悟空击毙，师傅更加不满，念紧箍咒惩罚。\n\n文档碎片：\n不甘心的白骨精第三次化作老公公来诱骗，依旧逃不过金睛火眼。\n\n文档碎片：\n最终，在观音菩萨的帮助下，真相大白，唐僧明白了自己的误解。\n\n\n文档总结：\n唐僧师徒在白虎岭三遇白骨精变化诱惑，悟空屡次识破击毙妖怪却遭误解，最终观音相助真相大白。'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{sub_docs}\n\n文档总结：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SUB_DOC_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'文档碎片：\n{text}\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param input_key: The input key in the meta field of the samples.</p>
+<blockquote>
+<div><p>It is “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output key in the aggregation field in the
+samples. It is same as the input_key in default.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – The system prompt.</p></li>
+<li><p><strong>sub_doc_template</strong> – The template for input text in each sample.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">
+<span class="sig-name descname"><span class="pre">recursive_summary</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.recursive_summary"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.aggregator" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.NestedAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">NestedAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.NestedAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Considering the limitation of input length, nested aggregate
 contents for each given number of samples.</p>
 <dl class="py attribute">
@@ -162,7 +532,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.MetaTagsAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">MetaTagsAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">meta_tag_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/meta_tags_aggregator.html#MetaTagsAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.MetaTagsAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Merge similar meta tags to one tag.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT">
@@ -251,7 +621,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.EntityAttributeAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">EntityAttributeAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity_attribute'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.EntityAttributeAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Return conclusion of the given entity’s attribute from some docs.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">
@@ -340,7 +710,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">MostRelavantEntitiesAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'most_relavant_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Extract entities closely related to a given entity from some texts,
 and sort them in descending order of importance.</p>
 <dl class="py attribute">
@@ -420,12 +790,16 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
-          <footer>
+          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
+        <a href="data_juicer.ops.html" class="btn btn-neutral float-left" title="data_juicer.ops package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-right" title="data_juicer.ops.common package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+    </div>
 
   <hr/>
 
diff --git a/data_juicer.ops.common.html b/data_juicer.ops.common.html
index ff6541a8b..674f49846 100644
--- a/data_juicer.ops.common.html
+++ b/data_juicer.ops.common.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.common &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.common package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.analysis" href="data_juicer.analysis.html" />
-    <link rel="prev" title="data_juicer.ops.selector" href="data_juicer.ops.selector.html" /> 
+    <link rel="next" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" />
+    <link rel="prev" title="data_juicer.ops.aggregator package" href="data_juicer.ops.aggregator.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,27 +42,22 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.common</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -79,7 +74,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.common</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.common package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.common.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -89,8 +85,202 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.common">
-<span id="data-juicer-ops-common"></span><h1>data_juicer.ops.common<a class="headerlink" href="#module-data_juicer.ops.common" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-common-package">
+<h1>data_juicer.ops.common package<a class="headerlink" href="#data-juicer-ops-common-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.common.helper_func">
+<span id="data-juicer-ops-common-helper-func-module"></span><h2>data_juicer.ops.common.helper_func module<a class="headerlink" href="#module-data_juicer.ops.common.helper_func" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">UnionFind</span></span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.find">
+<span class="sig-name descname"><span class="pre">find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.find" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.union">
+<span class="sig-name descname"><span class="pre">union</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.union"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.union" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.strip">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">strip</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_characters</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#strip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.strip" title="Link to this definition">¶</a></dt>
+<dd><p>Way faster than document.strip(strip_characters) since strip_characters is
+now a set instead of a str, and it contains a lot of elements (all the
+emojis).</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document to be processed</p></li>
+<li><p><strong>strip_characters</strong> – characters used for stripping document</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>stripped document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_whitespace">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_whitespace" title="Link to this definition">¶</a></dt>
+<dd><p>This method also removes concatenated spaces.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document to be splited</p></li>
+<li><p><strong>new_line</strong> – whether to split document with ‘\n’</p></li>
+<li><p><strong>tag</strong> – whether to split document with ‘\t’</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list obtained after splitting document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_newline_tab_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_newline_tab_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace" title="Link to this definition">¶</a></dt>
+<dd><p>This method is used to split the document into different levels of sub-
+sentences.</p>
+<p>First split on “\n”, then on “\t”, then on “ “.
+:param document: document to be splited
+:return: sentence list obtained after splitting document</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">merge_on_whitespace_tab_newline</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sentences</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#merge_on_whitespace_tab_newline"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline" title="Link to this definition">¶</a></dt>
+<dd><p>This method is used to merge different levels of sub-sentences into one
+document. Invert the method split_on_newline_tab_whitespace. Removes
+concatenated separators.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sentences</strong> – sentence list to be merged</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>document obtained after merging sub-sentences</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_augmentation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_augmentation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">group_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">join_char</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_augmentation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_augmentation" title="Link to this definition">¶</a></dt>
+<dd><p>Augment words, especially for Chinese (without a space between words) and
+Vietnamese (with a space between syllables).</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>word</strong> – word list to be augmented</p></li>
+<li><p><strong>group_size</strong> – the size of word groups that need to be merged</p></li>
+<li><p><strong>join_char</strong> – characters to be added between word group</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list after augment</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_words_from_document">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_words_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">token_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_words_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_words_from_document" title="Link to this definition">¶</a></dt>
+<dd><p>Get words from a document. Useful to compute ratios, like the
+stopwords ratio.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document that need to split words.</p></li>
+<li><p><strong>token_func</strong> – function of tokenizer, if specified, the function
+will be used for split document into different tokens.</p></li>
+<li><p><strong>new_line</strong> – whether to use ‘\n’ to split words.</p></li>
+<li><p><strong>tab</strong> – whether to use ‘\t’ to split words.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list obtained from document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_refinement">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_refinement</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_case</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_chars</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_refinement"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_refinement" title="Link to this definition">¶</a></dt>
+<dd><p>Refine split words. Non reversible since the document is split on
+multiple characters, words are stripped of special characters and
+characters are converted to lower case.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>words</strong> – the word list to be augmented</p></li>
+<li><p><strong>lower_case</strong> – whether to convert word to lowercase</p></li>
+<li><p><strong>strip_chars</strong> – chars that need to be stripped in words</p></li>
+<li><p><strong>use_words_aug</strong> – whether to use word augmentation</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – the size of word groups that need to
+be merged</p></li>
+<li><p><strong>words_aug_join_char</strong> – characters to be added between word
+group</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>refined words or word list</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_sentences_from_document">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_sentences_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_sentences_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_sentences_from_document" title="Link to this definition">¶</a></dt>
+<dd><p>Get sentences from a document.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document that need to split sentences</p></li>
+<li><p><strong>model_func</strong> – function of sentence model, if specified, the
+function will be used for spliting document into different
+sentences.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>document with the sentences separated by ‘\n’</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_text_by_punctuation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_text_by_punctuation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_text_by_punctuation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_text_by_punctuation" title="Link to this definition">¶</a></dt>
+<dd><p>Split text by any zh and en punctuation</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text</strong> – text to be splitted.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sub texts splitted by any zh and en punctuation</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.common.special_characters">
+<span id="data-juicer-ops-common-special-characters-module"></span><h2>data_juicer.ops.common.special_characters module<a class="headerlink" href="#module-data_juicer.ops.common.special_characters" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.common">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.common" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.ops.common.get_sentences_from_document">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.</span></span><span class="sig-name descname"><span class="pre">get_sentences_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_sentences_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.get_sentences_from_document" title="Link to this definition">¶</a></dt>
@@ -252,14 +442,15 @@
 </dl>
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-left" title="data_juicer.ops.selector" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-right" title="data_juicer.analysis" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.aggregator.html" class="btn btn-neutral float-left" title="data_juicer.ops.aggregator package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-right" title="data_juicer.ops.deduplicator package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.deduplicator.html b/data_juicer.ops.deduplicator.html
index 5e8c3ff72..2878ce888 100644
--- a/data_juicer.ops.deduplicator.html
+++ b/data_juicer.ops.deduplicator.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.deduplicator package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.selector" href="data_juicer.ops.selector.html" />
-    <link rel="prev" title="data_juicer.ops.mapper" href="data_juicer.ops.mapper.html" /> 
+    <link rel="next" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" />
+    <link rel="prev" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,16 +42,30 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +82,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.deduplicator.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,16 +93,1239 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops-deduplicator">
-<h1>data_juicer.ops.deduplicator<a class="headerlink" href="#data-juicer-ops-deduplicator" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-deduplicator-package">
+<h1>data_juicer.ops.deduplicator package<a class="headerlink" href="#data-juicer-ops-deduplicator-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<p>Using md5 hash to deduplicate samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_non_character</strong> – Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute md5 hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with md5 hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_minhash_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-minhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_minhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_minhash_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">sha1_hash32</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#sha1_hash32"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32" title="Link to this definition">¶</a></dt>
+<dd><p>Directly taken from datasketch package to avoid dependency.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>data</strong> (<em>bytes</em>)</p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p>int</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">optimal_param</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_perm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_positive_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_negative_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#optimal_param"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param" title="Link to this definition">¶</a></dt>
+<dd><p>Compute the optimal <cite>MinHashLSH</cite> parameter that minimizes the weighted sum
+of probabilities of false positive and false negative, taken from
+datasketch.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>threshold</strong> – float. The threshold for similarity</p></li>
+<li><p><strong>num_perm</strong> – int. The number of permutations</p></li>
+<li><p><strong>false_positive_weight</strong> – float. The weight of false positive</p></li>
+<li><p><strong>false_negative_weight</strong> – float. The weight of false negative</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Tuple[int, int]. The optimal <cite>b</cite> and <cite>r</cite> parameters. The number of
+bands, and the number of rows per band respectively</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
+<p>Different from simhash, minhash is stored as bytes, so they won’t be
+kept in the final dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character,
+sentencepiece]. For English-like languages, we recommend
+to use ‘space’, for Chinese-like languages, we recommend
+to use ‘character’, and for multiple languages, we recommend
+to use ‘sentencepiece’. If using ‘sentencepiece’, please
+provided the model path in the ‘tokenizer_model’ field.</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+<li><p><strong>tokenizer_model</strong> – path for the sentencepiece model, used for
+sentencepiece tokenization.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute minhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with minhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_simhash_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-simhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_simhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_simhash_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method :param tokenization: tokenization method for
+sample texts.</p>
+<p>It should be one of [space, punctuation, character]. For
+English-like languages, we recommend to use ‘space’. And for
+Chinese-like languages, we recommend to use ‘character’</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing simhash</p></li>
+<li><p><strong>num_blocks</strong> – number of blocks in simhash computing</p></li>
+<li><p><strong>hamming_distance</strong> – the max hamming distance threshold in
+near-duplicate detection. When the hamming distance of two
+sample texts is &lt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication. This threshold should be always less than
+num_blocks</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute simhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with simhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.image_deduplicator">
+<span id="data-juicer-ops-deduplicator-image-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.image_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.image_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">get_hash_method</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#get_hash_method"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">ImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>method</strong> – hash method for image</p></li>
+<li><p><strong>consider_text</strong> – whether to consider text hash together with image
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_basic_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-basic-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_basic_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_basic_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_basic_deduplicator.</span></span><span class="sig-name descname"><span class="pre">Backend</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#Backend"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ABC</span></code></p>
+<p>Backend for deduplicator.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__">
+<em class="property"><span class="pre">abstract</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#Backend.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique">
+<em class="property"><span class="pre">abstract</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">is_unique</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">md5_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#Backend.is_unique"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_basic_deduplicator.</span></span><span class="sig-name descname"><span class="pre">ActorBackend</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dedup_set_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#ActorBackend"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend"><code class="xref py py-class docutils literal notranslate"><span class="pre">Backend</span></code></a></p>
+<p>Ray actor backend for deduplicator.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dedup_set_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#ActorBackend.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique">
+<span class="sig-name descname"><span class="pre">is_unique</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">md5_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#ActorBackend.is_unique"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_basic_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RedisBackend</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RedisBackend"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend"><code class="xref py py-class docutils literal notranslate"><span class="pre">Backend</span></code></a></p>
+<p>Redis backend for deduplicator.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RedisBackend.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique">
+<span class="sig-name descname"><span class="pre">is_unique</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">md5_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RedisBackend.is_unique"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_basic_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBasicDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>A basic exact matching deduplicator for RAY.
+Although its functionality is deduplication,
+it is implemented as Filter sub-class.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">
+<span class="sig-name descname"><span class="pre">EMPTY_HASH_VALUE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'EMPTY'</span></em><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-bts-minhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBTSMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_find_parallel_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_edge_buffer_task</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_edge_buffer_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_filter_tasks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_filter_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">merge_batch_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1000</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>A MinhashLSH deduplicator based on RAY.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE">
+<span class="sig-name descname"><span class="pre">EMPTY_HASH_VALUE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'EMPTY'</span></em><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_find_parallel_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_edge_buffer_task</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_edge_buffer_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_filter_tasks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_filter_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">merge_batch_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1000</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character,
+sentencepiece]. For English-like languages, we recommend
+to use ‘space’, for Chinese-like languages, we recommend
+to use ‘character’, and for multiple languages, we recommend
+to use ‘sentencepiece’. If using ‘sentencepiece’, please
+provided the model path in the ‘tokenizer_model’ field.</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+<li><p><strong>tokenizer_model</strong> – path for the sentencepiece model, used for
+sentencepiece tokenization.</p></li>
+<li><p><strong>union_find_parallel_num</strong> – number of parallel workers for
+union-find algorithm. Default it’s ‘auto’, and it will be
+determined by half of the number of CPUs.</p></li>
+<li><p><strong>union_threshold</strong> – threshold for minhash values group to
+perform union-find algorightm. Default it’s 256.</p></li>
+<li><p><strong>max_pending_edge_buffer_task</strong> – max number of pending edge buffer
+ray tasks. Default it’s 20.</p></li>
+<li><p><strong>num_edge_buffer_task_returns</strong> – number of edge buffer tasks for
+<cite>ray.wait</cite> to return. Default it’s 10.</p></li>
+<li><p><strong>max_pending_filter_tasks</strong> – max number of pending filter ray
+tasks. Default it’s 20.</p></li>
+<li><p><strong>num_filter_task_returns</strong> – number of filter tasks for <cite>ray.wait</cite>
+to return. Default it’s 10.</p></li>
+<li><p><strong>merge_batch_size</strong> – batch size for BTS operations. Default
+it’s 1000.</p></li>
+<li><p><strong>tmp_file_name</strong> – the temporary folder name for deduplication.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash">
+<span class="sig-name descname"><span class="pre">calc_minhash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Array</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uid_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Table</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.calc_minhash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch">
+<span class="sig-name descname"><span class="pre">merge_op_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">object_refs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.merge_op_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge">
+<span class="sig-name descname"><span class="pre">merge</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.merge"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find">
+<span class="sig-name descname"><span class="pre">filter_with_union_find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Table</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Table</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.filter_with_union_find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_document_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-document-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_document_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_document_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_document_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayDocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param lowercase: Whether to convert sample text to lower case
+:param ignore_non_character: Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations
+:param args: extra args
+:param kwargs: extra args.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_image_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-image-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_image_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_image_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">get_hash_method</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#get_hash_method"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_video_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-video-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_video_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_video_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_video_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayVideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.video_deduplicator">
+<span id="data-juicer-ops-deduplicator-video-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.video_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.video_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.video_deduplicator.</span></span><span class="sig-name descname"><span class="pre">VideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>consider_text</strong> – whether to consider text hash together with video
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<p>Using md5 hash to deduplicate samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_non_character</strong> – Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute md5 hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with md5 hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
+<p>Different from simhash, minhash is stored as bytes, so they won’t be
+kept in the final dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character,
+sentencepiece]. For English-like languages, we recommend
+to use ‘space’, for Chinese-like languages, we recommend
+to use ‘character’, and for multiple languages, we recommend
+to use ‘sentencepiece’. If using ‘sentencepiece’, please
+provided the model path in the ‘tokenizer_model’ field.</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+<li><p><strong>tokenizer_model</strong> – path for the sentencepiece model, used for
+sentencepiece tokenization.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute minhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with minhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method :param tokenization: tokenization method for
+sample texts.</p>
+<p>It should be one of [space, punctuation, character]. For
+English-like languages, we recommend to use ‘space’. And for
+Chinese-like languages, we recommend to use ‘character’</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing simhash</p></li>
+<li><p><strong>num_blocks</strong> – number of blocks in simhash computing</p></li>
+<li><p><strong>hamming_distance</strong> – the max hamming distance threshold in
+near-duplicate detection. When the hamming distance of two
+sample texts is &lt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication. This threshold should be always less than
+num_blocks</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute simhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with simhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">ImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>method</strong> – hash method for image</p></li>
+<li><p><strong>consider_text</strong> – whether to consider text hash together with image
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ImageDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ImageDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBasicDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>A basic exact matching deduplicator for RAY.
+Although its functionality is deduplication,
+it is implemented as Filter sub-class.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">
+<span class="sig-name descname"><span class="pre">EMPTY_HASH_VALUE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'EMPTY'</span></em><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayDocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayDocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayDocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param lowercase: Whether to convert sample text to lower case
+:param ignore_non_character: Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations
+:param args: extra args
+:param kwargs: extra args.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayVideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayVideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayVideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">backend</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ray_actor'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_address</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'redis://localhost:6379'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param backend: the backend for dedup, either ‘ray_actor’ or ‘redis’
+:param redis_address: the address of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBTSMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_find_parallel_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_edge_buffer_task</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_edge_buffer_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_filter_tasks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_filter_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">merge_batch_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1000</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>A MinhashLSH deduplicator based on RAY.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE">
+<span class="sig-name descname"><span class="pre">EMPTY_HASH_VALUE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'EMPTY'</span></em><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_find_parallel_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">union_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_edge_buffer_task</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_edge_buffer_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_pending_filter_tasks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_filter_task_returns</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">merge_batch_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1000</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character,
+sentencepiece]. For English-like languages, we recommend
+to use ‘space’, for Chinese-like languages, we recommend
+to use ‘character’, and for multiple languages, we recommend
+to use ‘sentencepiece’. If using ‘sentencepiece’, please
+provided the model path in the ‘tokenizer_model’ field.</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+<li><p><strong>tokenizer_model</strong> – path for the sentencepiece model, used for
+sentencepiece tokenization.</p></li>
+<li><p><strong>union_find_parallel_num</strong> – number of parallel workers for
+union-find algorithm. Default it’s ‘auto’, and it will be
+determined by half of the number of CPUs.</p></li>
+<li><p><strong>union_threshold</strong> – threshold for minhash values group to
+perform union-find algorightm. Default it’s 256.</p></li>
+<li><p><strong>max_pending_edge_buffer_task</strong> – max number of pending edge buffer
+ray tasks. Default it’s 20.</p></li>
+<li><p><strong>num_edge_buffer_task_returns</strong> – number of edge buffer tasks for
+<cite>ray.wait</cite> to return. Default it’s 10.</p></li>
+<li><p><strong>max_pending_filter_tasks</strong> – max number of pending filter ray
+tasks. Default it’s 20.</p></li>
+<li><p><strong>num_filter_task_returns</strong> – number of filter tasks for <cite>ray.wait</cite>
+to return. Default it’s 10.</p></li>
+<li><p><strong>merge_batch_size</strong> – batch size for BTS operations. Default
+it’s 1000.</p></li>
+<li><p><strong>tmp_file_name</strong> – the temporary folder name for deduplication.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.calc_minhash">
+<span class="sig-name descname"><span class="pre">calc_minhash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Array</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uid_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Table</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.calc_minhash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.calc_minhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge_op_batch">
+<span class="sig-name descname"><span class="pre">merge_op_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">object_refs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.merge_op_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge_op_batch" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge">
+<span class="sig-name descname"><span class="pre">merge</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.merge"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find">
+<span class="sig-name descname"><span class="pre">filter_with_union_find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Table</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Table</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.filter_with_union_find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_bts_minhash_deduplicator.html#RayBTSMinhashDeduplicator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.VideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">VideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.VideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.VideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.VideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>consider_text</strong> – whether to consider text hash together with video
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.VideoDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.VideoDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-left" title="data_juicer.ops.mapper" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-right" title="data_juicer.ops.selector" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-left" title="data_juicer.ops.common package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-right" title="data_juicer.ops.filter package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.filter.html b/data_juicer.ops.filter.html
index 6c73cfa3c..946aa69c7 100644
--- a/data_juicer.ops.filter.html
+++ b/data_juicer.ops.filter.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.filter package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.mapper" href="data_juicer.ops.mapper.html" />
-    <link rel="prev" title="data_juicer.ops" href="data_juicer.ops.html" /> 
+    <link rel="next" title="data_juicer.ops.grouper package" href="data_juicer.ops.grouper.html" />
+    <link rel="prev" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,16 +42,64 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +116,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.filter.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,16 +127,5491 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops-filter">
-<h1>data_juicer.ops.filter<a class="headerlink" href="#data-juicer-ops-filter" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-filter-package">
+<h1>data_juicer.ops.filter package<a class="headerlink" href="#data-juicer-ops-filter-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.filter.alphanumeric_filter">
+<span id="data-juicer-ops-filter-alphanumeric-filter-module"></span><h2>data_juicer.ops.filter.alphanumeric_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.alphanumeric_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.alphanumeric_filter.</span></span><span class="sig-name descname"><span class="pre">AlphanumericFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with alphabet/numeric ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – Whether to count the ratio of alphanumeric
+to the total number of tokens. if tokenization=False, it
+will count the ratio of alphanumeric to the total number of
+characters.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_duration_filter">
+<span id="data-juicer-ops-filter-audio-duration-filter-module"></span><h2>data_juicer.ops.filter.audio_duration_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_duration_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_duration_filter.</span></span><span class="sig-name descname"><span class="pre">AudioDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min audio duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max audio duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_nmf_snr_filter">
+<span id="data-juicer-ops-filter-audio-nmf-snr-filter-module"></span><h2>data_juicer.ops.filter.audio_nmf_snr_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_nmf_snr_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">separate_signal_noise</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">audio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_components</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#separate_signal_noise"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">compute_nmf_snr</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">audio_data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#compute_nmf_snr"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">AudioNMFSNRFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ SNRs (computed based on NMF) are within
+a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_snr</strong> – The min audio SNR to keep samples in dB. It’s 0 by
+default.</p></li>
+<li><p><strong>max_snr</strong> – The max audio SNR to keep samples in dB. It’s
+sys.maxsize by default.</p></li>
+<li><p><strong>nmf_iter_num</strong> – The max number of iterations to run NMF. It’s 500
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_size_filter">
+<span id="data-juicer-ops-filter-audio-size-filter-module"></span><h2>data_juicer.ops.filter.audio_size_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_size_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_size_filter.</span></span><span class="sig-name descname"><span class="pre">AudioSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audio size (in bytes/kb/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min audio size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max audio size to keep samples.  set to be
+“1Tb” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.average_line_length_filter">
+<span id="data-juicer-ops-filter-average-line-length-filter-module"></span><h2>data_juicer.ops.filter.average_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.average_line_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.average_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">AverageLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with average line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their average line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their average line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.character_repetition_filter">
+<span id="data-juicer-ops-filter-character-repetition-filter-module"></span><h2>data_juicer.ops.filter.character_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.character_repetition_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.character_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">CharacterRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with char-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>rep_len</strong> – Repetition length for char-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.flagged_words_filter">
+<span id="data-juicer-ops-filter-flagged-words-filter-module"></span><h2>data_juicer.ops.filter.flagged_words_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.flagged_words_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.flagged_words_filter.</span></span><span class="sig-name descname"><span class="pre">FlaggedWordFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with flagged-word ratio less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider flagged words in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – Whether to use model to tokenize documents</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op.</p></li>
+<li><p><strong>flagged_words_dir</strong> – The directory storing the
+flagged_words file(s) whose name includes “flagged_words”
+and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_aesthetics_filter">
+<span id="data-juicer-ops-filter-image-aesthetics-filter-module"></span><h2>data_juicer.ops.filter.image_aesthetics_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_aesthetics_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_aesthetics_filter.</span></span><span class="sig-name descname"><span class="pre">ImageAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with aesthetics scores within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_aspect_ratio_filter">
+<span id="data-juicer-ops-filter-image-aspect-ratio-filter-module"></span><h2>data_juicer.ops.filter.image_aspect_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_aspect_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_aspect_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">ImageAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min aspect ratio to keep samples.</p></li>
+<li><p><strong>max_ratio</strong> – The max aspect ratio to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_face_count_filter">
+<span id="data-juicer-ops-filter-image-face-count-filter-module"></span><h2>data_juicer.ops.filter.image_face_count_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_face_count_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_face_count_filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceCountFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with the number of faces within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_face_count</strong> – Minimum number of faces required for samples.</p></li>
+<li><p><strong>max_face_count</strong> – Maximum number of faces required for samples.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_face_ratio_filter">
+<span id="data-juicer-ops-filter-image-face-ratio-filter-module"></span><h2>data_juicer.ops.filter.image_face_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_face_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_face_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with face area ratios within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_ratio</strong> – Min ratio for the largest face area in an image.</p></li>
+<li><p><strong>max_ratio</strong> – Max ratio for the largest face area in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_nsfw_filter">
+<span id="data-juicer-ops-filter-image-nsfw-filter-module"></span><h2>data_juicer.ops.filter.image_nsfw_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_nsfw_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_nsfw_filter.</span></span><span class="sig-name descname"><span class="pre">ImageNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_pair_similarity_filter">
+<span id="data-juicer-ops-filter-image-pair-similarity-filter-module"></span><h2>data_juicer.ops.filter.image_pair_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_pair_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_pair_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">ImagePairSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep image pairs with similarities between images
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_shape_filter">
+<span id="data-juicer-ops-filter-image-shape-filter-module"></span><h2>data_juicer.ops.filter.image_shape_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_shape_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_shape_filter.</span></span><span class="sig-name descname"><span class="pre">ImageShapeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image shape (w, h) within specific ranges.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min width to keep samples.</p></li>
+<li><p><strong>max_width</strong> – The max width to keep samples.</p></li>
+<li><p><strong>min_height</strong> – The min height to keep samples.</p></li>
+<li><p><strong>max_height</strong> – The max height to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_size_filter">
+<span id="data-juicer-ops-filter-image-size-filter-module"></span><h2>data_juicer.ops.filter.image_size_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_size_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_size_filter.</span></span><span class="sig-name descname"><span class="pre">ImageSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose image size (in Bytes/KB/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min image size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max image size to keep samples.  set to be
+“1TB” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_text_matching_filter">
+<span id="data-juicer-ops-filter-image-text-matching-filter-module"></span><h2>data_juicer.ops.filter.image_text_matching_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_text_matching_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_text_matching_filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextMatchingFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those matching score between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_blip</strong> – blip model name on huggingface to compute
+the matching score between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min matching score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max matching score to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_text_similarity_filter">
+<span id="data-juicer-ops-filter-image-text-similarity-filter-module"></span><h2>data_juicer.ops.filter.image_text_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_text_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_text_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_watermark_filter">
+<span id="data-juicer-ops-filter-image-watermark-filter-module"></span><h2>data_juicer.ops.filter.image_watermark_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_watermark_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_watermark_filter.</span></span><span class="sig-name descname"><span class="pre">ImageWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.language_id_score_filter">
+<span id="data-juicer-ops-filter-language-id-score-filter-module"></span><h2>data_juicer.ops.filter.language_id_score_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.language_id_score_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.language_id_score_filter.</span></span><span class="sig-name descname"><span class="pre">LanguageIDScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples in a specific language with confidence score
+larger than a specific min value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Samples in which languages to keep.</p></li>
+<li><p><strong>min_score</strong> – The min language identification confidence
+scores of samples to keep.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.maximum_line_length_filter">
+<span id="data-juicer-ops-filter-maximum-line-length-filter-module"></span><h2>data_juicer.ops.filter.maximum_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.maximum_line_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.maximum_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">MaximumLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with maximum line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their maximum line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their maximum line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.perplexity_filter">
+<span id="data-juicer-ops-filter-perplexity-filter-module"></span><h2>data_juicer.ops.filter.perplexity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.perplexity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.perplexity_filter.</span></span><span class="sig-name descname"><span class="pre">PerplexityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with perplexity score less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Compute perplexity for samples in which language.</p></li>
+<li><p><strong>max_ppl</strong> – The max filter perplexity in this op, samples
+will be filtered if their perplexity exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.phrase_grounding_recall_filter">
+<span id="data-juicer-ops-filter-phrase-grounding-recall-filter-module"></span><h2>data_juicer.ops.filter.phrase_grounding_recall_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.phrase_grounding_recall_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">find_noun_phrases</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">caption</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#find_noun_phrases"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">remove_punctuation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#remove_punctuation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">run_ner</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">caption</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#run_ner"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">PhraseGroundingRecallFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose locating recalls of phrases extracted
+from text in the images are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_owlvit</strong> – Owl-ViT model name on huggingface to locate the
+phrases extracted from the text.</p></li>
+<li><p><strong>min_recall</strong> – The min phrase grounding recall to keep samples.</p></li>
+<li><p><strong>max_recall</strong> – The max phrase grounding recall to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>iou_thr</strong> – the IoU threshold for NMS-like post-process. If two
+predicted bboxes are overlap with an IoU larger than this
+threshold, the bbox with less confidence will be removed. Default:
+0.5.</p></li>
+<li><p><strong>large_area_ratio_thr</strong> – the area ratio threshold for filtering out
+those large predicted bboxes. If the area of a predicted bbox
+accounts for more than this ratio threshold of the whole image
+area, this bbox will be removed. Default: 0.95.</p></li>
+<li><p><strong>conf_thr</strong> – the confidence score threshold for removing
+low-confidence bboxes. If the confidence score of a predicted bbox
+is lower than the threshold, this bbox will be removed. Default: 0.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.special_characters_filter">
+<span id="data-juicer-ops-filter-special-characters-filter-module"></span><h2>data_juicer.ops.filter.special_characters_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.special_characters_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.special_characters_filter.</span></span><span class="sig-name descname"><span class="pre">SpecialCharactersFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with special-char ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their special-char ratio is below this
+parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their special-char ratio exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.specified_field_filter">
+<span id="data-juicer-ops-filter-specified-field-filter-module"></span><h2>data_juicer.ops.filter.specified_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_field_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified field information.</p>
+<p>If the specified field information in the sample is not within the
+specified target value, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_value</strong> – The range of specified field information
+corresponding to the samples that need to be retained.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.specified_numeric_field_filter">
+<span id="data-juicer-ops-filter-specified-numeric-field-filter-module"></span><h2>data_juicer.ops.filter.specified_numeric_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_numeric_field_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.is_number">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">is_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#is_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.is_number" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedNumericFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified numeric field information.</p>
+<p>If the specified numeric information in the sample is not within the
+specified range, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified numeric value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>min_value</strong> – The min filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value is below this parameter.</p></li>
+<li><p><strong>max_value</strong> – The max filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.stopwords_filter">
+<span id="data-juicer-ops-filter-stopwords-filter-module"></span><h2>data_juicer.ops.filter.stopwords_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.stopwords_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.stopwords_filter.</span></span><span class="sig-name descname"><span class="pre">StopWordsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with stopword ratio larger than a specific min
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider stopwords in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op.</p></li>
+<li><p><strong>stopwords_dir</strong> – The directory storing the stopwords
+file(s) whose name includes “stopwords” and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.suffix_filter">
+<span id="data-juicer-ops-filter-suffix-filter-module"></span><h2>data_juicer.ops.filter.suffix_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.suffix_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.suffix_filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with specified suffix.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>suffixes</strong> – the suffix of text that will be keep.
+For example: ‘.txt’, ‘txt’ or [‘txt’, ‘.pdf’, ‘docx’]</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_action_filter">
+<span id="data-juicer-ops-filter-text-action-filter-module"></span><h2>data_juicer.ops.filter.text_action_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_action_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_action_filter.</span></span><span class="sig-name descname"><span class="pre">TextActionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep texts those contain actions in the text.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+actions in English and ‘zh’ for detection of actions in Chinese.</p></li>
+<li><p><strong>mini_action_num</strong> – The min action number in the filtering. samples
+will be filtered if their action number in the text is below this
+parameter.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_entity_dependency_filter">
+<span id="data-juicer-ops-filter-text-entity-dependency-filter-module"></span><h2>data_juicer.ops.filter.text_entity_dependency_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_entity_dependency_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_entity_dependency_filter.</span></span><span class="sig-name descname"><span class="pre">TextEntityDependencyFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Identify the entities in the text which are independent with other token,
+and filter them. The text containing no entities will be omitted.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+entities in English and ‘zh’ for detection of entities in Chinese.</p></li>
+<li><p><strong>mini_dependency_num</strong> – The min token number in the filtering.
+Objects is independent if their number of edges in the dependency
+tree is below this parameter.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy.
+‘any’: keep this sample if any objet is dependent. ‘all’: keep this
+sample only if all images are dependent.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_length_filter">
+<span id="data-juicer-ops-filter-text-length-filter-module"></span><h2>data_juicer.ops.filter.text_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_length_filter.</span></span><span class="sig-name descname"><span class="pre">TextLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total text length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min text length in the filtering. samples
+will be filtered if their text length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max text length in the filtering. samples
+will be filtered if their text length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.token_num_filter">
+<span id="data-juicer-ops-filter-token-num-filter-module"></span><h2>data_juicer.ops.filter.token_num_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.token_num_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.token_num_filter.</span></span><span class="sig-name descname"><span class="pre">TokenNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total token number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_tokenizer</strong> – the tokenizer name of Hugging Face tokenizers.</p></li>
+<li><p><strong>min_num</strong> – The min filter token number in this op, samples
+will be filtered if their token number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter token number in this op, samples
+will be filtered if their token number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_aesthetics_filter">
+<span id="data-juicer-ops-filter-video-aesthetics-filter-module"></span><h2>data_juicer.ops.filter.video_aesthetics_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_aesthetics_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_aesthetics_filter.</span></span><span class="sig-name descname"><span class="pre">VideoAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep data samples with aesthetics scores for specified frames
+in the videos within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames and the latter one extract
+specified number of frames uniformly from the video.
+Default: “uniform” with frame_num=3, considering that the number of
+keyframes can be large while their difference is usually small
+in terms of their aesthetics.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one sample corresponds to
+multiple frames, must be one of [‘avg’,’max’, ‘min’].
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_aspect_ratio_filter">
+<span id="data-juicer-ops-filter-video-aspect-ratio-filter-module"></span><h2>data_juicer.ops.filter.video_aspect_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_aspect_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_aspect_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">VideoAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to keep samples,
+supported format is a string, such as “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to keep samples,
+supported format is a string, such as “21:9” or “21/9”.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_duration_filter">
+<span id="data-juicer-ops-filter-video-duration-filter-module"></span><h2>data_juicer.ops.filter.video_duration_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_duration_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_duration_filter.</span></span><span class="sig-name descname"><span class="pre">VideoDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min video duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max video duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_frames_text_similarity_filter">
+<span id="data-juicer-ops-filter-video-frames-text-similarity-filter-module"></span><h2>data_juicer.ops.filter.video_frames_text_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_frames_text_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_frames_text_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">VideoFramesTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between sampled video frame
+images and text within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between frame image and text. It’s kind of
+language-related. For example, for Chinese datasets, ChineseCLIP
+might be a better choice.</p></li>
+<li><p><strong>min_score</strong> – the min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – the max similarity to keep samples.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple video frame images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_motion_score_filter">
+<span id="data-juicer-ops-filter-video-motion-score-filter-module"></span><h2>data_juicer.ops.filter.video_motion_score_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_motion_score_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoCapture">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_filter.</span></span><span class="sig-name descname"><span class="pre">VideoCapture</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoCapture"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoCapture" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specific range. The
+Farneback’s algorith from OpenCV is used to compute dense optical flow.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_motion_score_raft_filter">
+<span id="data-juicer-ops-filter-video-motion-score-raft-filter-module"></span><h2>data_juicer.ops.filter.video_motion_score_raft_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_motion_score_raft_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_raft_filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreRaftFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="xref py py-class docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specified range.
+This operator utilizes the RAFT (Recurrent All-Pairs Field Transforms)
+model from torchvision to predict optical flow between video frames.</p>
+<p>For further details, refer to the official torchvision documentation:
+<a class="reference external" href="https://pytorch.org/vision/main/models/raft.html">https://pytorch.org/vision/main/models/raft.html</a></p>
+<p>The original paper on RAFT is available here:
+<a class="reference external" href="https://arxiv.org/abs/2003.12039">https://arxiv.org/abs/2003.12039</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_nsfw_filter">
+<span id="data-juicer-ops-filter-video-nsfw-filter-module"></span><h2>data_juicer.ops.filter.video_nsfw_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_nsfw_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_nsfw_filter.</span></span><span class="sig-name descname"><span class="pre">VideoNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_ocr_area_ratio_filter">
+<span id="data-juicer-ops-filter-video-ocr-area-ratio-filter-module"></span><h2>data_juicer.ops.filter.video_ocr_area_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_ocr_area_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_ocr_area_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">triangle_area</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">p2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">p3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#triangle_area"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area" title="Link to this definition">¶</a></dt>
+<dd><p>Compute the triangle area according to its coordinates.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_ocr_area_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">VideoOcrAreaRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose detected text area ratios for specified frames
+in the video are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_area_ratio</strong> – The min ocr area ratio to keep samples. It’s 0
+by default.</p></li>
+<li><p><strong>max_area_ratio</strong> – The max ocr area ratio to keep samples. It’s 1.0
+by default.</p></li>
+<li><p><strong>frame_sample_num</strong> – The number of sampled frames to calculate the
+ocr area ratio. If it’s 1, only middle frame will be selected. If
+it’s 2, only the first and the last frames will be selected. If
+it’s larger than 2, in addition to the first and the last frames,
+other frames will be sampled evenly within the video duration.</p></li>
+<li><p><strong>languages_to_detect</strong> – texts in which languages should be
+detected. Default: [‘ch_sim’, ‘en’]. Full language list can be
+found here: <a class="reference external" href="https://www.jaided.ai/easyocr/">https://www.jaided.ai/easyocr/</a>.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">
+<span class="sig-name descname"><span class="pre">get_reader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.get_reader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_resolution_filter">
+<span id="data-juicer-ops-filter-video-resolution-filter-module"></span><h2>data_juicer.ops.filter.video_resolution_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_resolution_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_resolution_filter.</span></span><span class="sig-name descname"><span class="pre">VideoResolutionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ resolutions are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min horizontal resolution.</p></li>
+<li><p><strong>max_width</strong> – The max horizontal resolution.</p></li>
+<li><p><strong>min_height</strong> – The min vertical resolution.</p></li>
+<li><p><strong>max_height</strong> – The max vertical resolution.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_tagging_from_frames_filter">
+<span id="data-juicer-ops-filter-video-tagging-from-frames-filter-module"></span><h2>data_juicer.ops.filter.video_tagging_from_frames_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_tagging_from_frames_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_tagging_from_frames_filter.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos contain the given tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tags</strong> – a tag list to shift the videos, total tags can be found
+in <a class="reference external" href="https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt">https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt</a> # noqa: E501</p></li>
+<li><p><strong>contain</strong> – require the videos containing ‘any’ or ‘all’ tags.
+When tags equal to [], ‘all’ keeps all samples, ‘any’ keeps no
+sample.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the key name to store the tags in the meta
+field. It’s “video_frame_tags” in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_watermark_filter">
+<span id="data-juicer-ops-filter-video-watermark-filter-module"></span><h2>data_juicer.ops.filter.video_watermark_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_watermark_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_watermark_filter.</span></span><span class="sig-name descname"><span class="pre">VideoWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.word_repetition_filter">
+<span id="data-juicer-ops-filter-word-repetition-filter-module"></span><h2>data_juicer.ops.filter.word_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.word_repetition_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.word_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">WordRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with word-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>rep_len</strong> – Repetition length for word-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.words_num_filter">
+<span id="data-juicer-ops-filter-words-num-filter-module"></span><h2>data_juicer.ops.filter.words_num_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.words_num_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.words_num_filter.</span></span><span class="sig-name descname"><span class="pre">WordsNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total words number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_num</strong> – The min filter word number in this op, samples
+will be filtered if their word number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter word number in this op, samples
+will be filtered if their word number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AlphanumericFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AlphanumericFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AlphanumericFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with alphabet/numeric ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AlphanumericFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AlphanumericFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – Whether to count the ratio of alphanumeric
+to the total number of tokens. if tokenization=False, it
+will count the ratio of alphanumeric to the total number of
+characters.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AlphanumericFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AlphanumericFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min audio duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max audio duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioNMFSNRFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioNMFSNRFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioNMFSNRFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ SNRs (computed based on NMF) are within
+a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioNMFSNRFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioNMFSNRFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_snr</strong> – The min audio SNR to keep samples in dB. It’s 0 by
+default.</p></li>
+<li><p><strong>max_snr</strong> – The max audio SNR to keep samples in dB. It’s
+sys.maxsize by default.</p></li>
+<li><p><strong>nmf_iter_num</strong> – The max number of iterations to run NMF. It’s 500
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioNMFSNRFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioNMFSNRFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audio size (in bytes/kb/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min audio size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max audio size to keep samples.  set to be
+“1Tb” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AudioSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AverageLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AverageLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AverageLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with average line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AverageLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AverageLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their average line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their average line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.AverageLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AverageLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.CharacterRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">CharacterRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.CharacterRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with char-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.CharacterRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.CharacterRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>rep_len</strong> – Repetition length for char-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.CharacterRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.FlaggedWordFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">FlaggedWordFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.FlaggedWordFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with flagged-word ratio less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.FlaggedWordFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.FlaggedWordFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider flagged words in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – Whether to use model to tokenize documents</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op.</p></li>
+<li><p><strong>flagged_words_dir</strong> – The directory storing the
+flagged_words file(s) whose name includes “flagged_words”
+and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.FlaggedWordFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.FlaggedWordFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with aesthetics scores within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min aspect ratio to keep samples.</p></li>
+<li><p><strong>max_ratio</strong> – The max aspect ratio to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAspectRatioFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceCountFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceCountFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with the number of faces within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceCountFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_face_count</strong> – Minimum number of faces required for samples.</p></li>
+<li><p><strong>max_face_count</strong> – Maximum number of faces required for samples.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceCountFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with face area ratios within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_ratio</strong> – Min ratio for the largest face area in an image.</p></li>
+<li><p><strong>max_ratio</strong> – Max ratio for the largest face area in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImagePairSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImagePairSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImagePairSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep image pairs with similarities between images
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImagePairSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImagePairSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImagePairSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImagePairSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageShapeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageShapeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image shape (w, h) within specific ranges.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageShapeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min width to keep samples.</p></li>
+<li><p><strong>max_width</strong> – The max width to keep samples.</p></li>
+<li><p><strong>min_height</strong> – The min height to keep samples.</p></li>
+<li><p><strong>max_height</strong> – The max height to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageShapeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageShapeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose image size (in Bytes/KB/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min image size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max image size to keep samples.  set to be
+“1TB” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextMatchingFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextMatchingFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextMatchingFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those matching score between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextMatchingFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextMatchingFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_blip</strong> – blip model name on huggingface to compute
+the matching score between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min matching score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max matching score to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextMatchingFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextMatchingFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.ImageWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.LanguageIDScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">LanguageIDScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.LanguageIDScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples in a specific language with confidence score
+larger than a specific min value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.LanguageIDScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.LanguageIDScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Samples in which languages to keep.</p></li>
+<li><p><strong>min_score</strong> – The min language identification confidence
+scores of samples to keep.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.LanguageIDScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.LanguageIDScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.MaximumLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">MaximumLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.MaximumLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with maximum line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.MaximumLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.MaximumLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their maximum line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their maximum line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.MaximumLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PerplexityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">PerplexityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PerplexityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with perplexity score less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PerplexityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PerplexityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Compute perplexity for samples in which language.</p></li>
+<li><p><strong>max_ppl</strong> – The max filter perplexity in this op, samples
+will be filtered if their perplexity exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PerplexityFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PerplexityFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PerplexityFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PhraseGroundingRecallFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">PhraseGroundingRecallFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose locating recalls of phrases extracted
+from text in the images are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_owlvit</strong> – Owl-ViT model name on huggingface to locate the
+phrases extracted from the text.</p></li>
+<li><p><strong>min_recall</strong> – The min phrase grounding recall to keep samples.</p></li>
+<li><p><strong>max_recall</strong> – The max phrase grounding recall to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>iou_thr</strong> – the IoU threshold for NMS-like post-process. If two
+predicted bboxes are overlap with an IoU larger than this
+threshold, the bbox with less confidence will be removed. Default:
+0.5.</p></li>
+<li><p><strong>large_area_ratio_thr</strong> – the area ratio threshold for filtering out
+those large predicted bboxes. If the area of a predicted bbox
+accounts for more than this ratio threshold of the whole image
+area, this bbox will be removed. Default: 0.95.</p></li>
+<li><p><strong>conf_thr</strong> – the confidence score threshold for removing
+low-confidence bboxes. If the confidence score of a predicted bbox
+is lower than the threshold, this bbox will be removed. Default: 0.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecialCharactersFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecialCharactersFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecialCharactersFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with special-char ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecialCharactersFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecialCharactersFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their special-char ratio is below this
+parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their special-char ratio exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecialCharactersFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecialCharactersFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified field information.</p>
+<p>If the specified field information in the sample is not within the
+specified target value, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_value</strong> – The range of specified field information
+corresponding to the samples that need to be retained.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedNumericFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedNumericFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified numeric field information.</p>
+<p>If the specified numeric information in the sample is not within the
+specified range, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified numeric value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>min_value</strong> – The min filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value is below this parameter.</p></li>
+<li><p><strong>max_value</strong> – The max filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.StopWordsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">StopWordsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.StopWordsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with stopword ratio larger than a specific min
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.StopWordsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.StopWordsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider stopwords in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op.</p></li>
+<li><p><strong>stopwords_dir</strong> – The directory storing the stopwords
+file(s) whose name includes “stopwords” and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.StopWordsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.StopWordsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.StopWordsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.StopWordsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SuffixFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with specified suffix.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SuffixFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>suffixes</strong> – the suffix of text that will be keep.
+For example: ‘.txt’, ‘txt’ or [‘txt’, ‘.pdf’, ‘docx’]</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SuffixFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SuffixFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextActionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextActionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep texts those contain actions in the text.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextActionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+actions in English and ‘zh’ for detection of actions in Chinese.</p></li>
+<li><p><strong>mini_action_num</strong> – The min action number in the filtering. samples
+will be filtered if their action number in the text is below this
+parameter.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextActionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextActionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextEntityDependencyFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextEntityDependencyFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextEntityDependencyFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Identify the entities in the text which are independent with other token,
+and filter them. The text containing no entities will be omitted.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextEntityDependencyFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextEntityDependencyFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+entities in English and ‘zh’ for detection of entities in Chinese.</p></li>
+<li><p><strong>mini_dependency_num</strong> – The min token number in the filtering.
+Objects is independent if their number of edges in the dependency
+tree is below this parameter.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy.
+‘any’: keep this sample if any objet is dependent. ‘all’: keep this
+sample only if all images are dependent.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextEntityDependencyFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextEntityDependencyFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total text length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min text length in the filtering. samples
+will be filtered if their text length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max text length in the filtering. samples
+will be filtered if their text length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TextLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TokenNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TokenNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TokenNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total token number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TokenNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TokenNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_tokenizer</strong> – the tokenizer name of Hugging Face tokenizers.</p></li>
+<li><p><strong>min_num</strong> – The min filter token number in this op, samples
+will be filtered if their token number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter token number in this op, samples
+will be filtered if their token number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TokenNumFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TokenNumFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.TokenNumFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TokenNumFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep data samples with aesthetics scores for specified frames
+in the videos within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames and the latter one extract
+specified number of frames uniformly from the video.
+Default: “uniform” with frame_num=3, considering that the number of
+keyframes can be large while their difference is usually small
+in terms of their aesthetics.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one sample corresponds to
+multiple frames, must be one of [‘avg’,’max’, ‘min’].
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to keep samples,
+supported format is a string, such as “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to keep samples,
+supported format is a string, such as “21:9” or “21/9”.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAspectRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAspectRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min video duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max video duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoFramesTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoFramesTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between sampled video frame
+images and text within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between frame image and text. It’s kind of
+language-related. For example, for Chinese datasets, ChineseCLIP
+might be a better choice.</p></li>
+<li><p><strong>min_score</strong> – the min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – the max similarity to keep samples.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple video frame images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specific range. The
+Farneback’s algorith from OpenCV is used to compute dense optical flow.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreRaftFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreRaftFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="xref py py-class docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specified range.
+This operator utilizes the RAFT (Recurrent All-Pairs Field Transforms)
+model from torchvision to predict optical flow between video frames.</p>
+<p>For further details, refer to the official torchvision documentation:
+<a class="reference external" href="https://pytorch.org/vision/main/models/raft.html">https://pytorch.org/vision/main/models/raft.html</a></p>
+<p>The original paper on RAFT is available here:
+<a class="reference external" href="https://arxiv.org/abs/2003.12039">https://arxiv.org/abs/2003.12039</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoOcrAreaRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose detected text area ratios for specified frames
+in the video are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_area_ratio</strong> – The min ocr area ratio to keep samples. It’s 0
+by default.</p></li>
+<li><p><strong>max_area_ratio</strong> – The max ocr area ratio to keep samples. It’s 1.0
+by default.</p></li>
+<li><p><strong>frame_sample_num</strong> – The number of sampled frames to calculate the
+ocr area ratio. If it’s 1, only middle frame will be selected. If
+it’s 2, only the first and the last frames will be selected. If
+it’s larger than 2, in addition to the first and the last frames,
+other frames will be sampled evenly within the video duration.</p></li>
+<li><p><strong>languages_to_detect</strong> – texts in which languages should be
+detected. Default: [‘ch_sim’, ‘en’]. Full language list can be
+found here: <a class="reference external" href="https://www.jaided.ai/easyocr/">https://www.jaided.ai/easyocr/</a>.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader">
+<span class="sig-name descname"><span class="pre">get_reader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.get_reader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoResolutionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoResolutionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ resolutions are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoResolutionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min horizontal resolution.</p></li>
+<li><p><strong>max_width</strong> – The max horizontal resolution.</p></li>
+<li><p><strong>min_height</strong> – The min vertical resolution.</p></li>
+<li><p><strong>max_height</strong> – The max vertical resolution.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoResolutionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos contain the given tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tags</strong> – a tag list to shift the videos, total tags can be found
+in <a class="reference external" href="https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt">https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt</a> # noqa: E501</p></li>
+<li><p><strong>contain</strong> – require the videos containing ‘any’ or ‘all’ tags.
+When tags equal to [], ‘all’ keeps all samples, ‘any’ keeps no
+sample.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the key name to store the tags in the meta
+field. It’s “video_frame_tags” in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.VideoWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">WordRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with word-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>rep_len</strong> – Repetition length for word-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordsNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">WordsNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordsNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total words number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordsNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordsNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_num</strong> – The min filter word number in this op, samples
+will be filtered if their word number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter word number in this op, samples
+will be filtered if their word number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordsNumFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.WordsNumFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordsNumFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-left" title="data_juicer.ops" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-right" title="data_juicer.ops.mapper" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-left" title="data_juicer.ops.deduplicator package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.grouper.html" class="btn btn-neutral float-right" title="data_juicer.ops.grouper package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.grouper.html b/data_juicer.ops.grouper.html
index ac6f17ee0..9aeb57368 100644
--- a/data_juicer.ops.grouper.html
+++ b/data_juicer.ops.grouper.html
@@ -6,17 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.grouper &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.grouper package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" /> 
+    <link rel="search" title="Search" href="search.html" />
+    <link rel="next" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" />
+    <link rel="prev" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -39,17 +41,25 @@
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
+<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +76,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.grouper</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.grouper package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.grouper.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,14 +87,252 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops-grouper">
-<h1>data_juicer.ops.grouper<a class="headerlink" href="#data-juicer-ops-grouper" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-grouper-package">
+<h1>data_juicer.ops.grouper package<a class="headerlink" href="#data-juicer-ops-grouper-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.grouper.key_value_grouper">
+<span id="data-juicer-ops-grouper-key-value-grouper-module"></span><h2>data_juicer.ops.grouper.key_value_grouper module<a class="headerlink" href="#module-data_juicer.ops.grouper.key_value_grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.key_value_grouper.</span></span><span class="sig-name descname"><span class="pre">KeyValueGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group samples to batched samples according values in given keys.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>group_by_keys</strong> – group samples according values in the keys.
+Support for nested keys such as “__dj__stats__.text_len”.
+It is [self.text_key] in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.grouper.naive_grouper">
+<span id="data-juicer-ops-grouper-naive-grouper-module"></span><h2>data_juicer.ops.grouper.naive_grouper module<a class="headerlink" href="#module-data_juicer.ops.grouper.naive_grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.naive_grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group all samples to one batched sample.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.grouper.naive_reverse_grouper">
+<span id="data-juicer-ops-grouper-naive-reverse-grouper-module"></span><h2>data_juicer.ops.grouper.naive_reverse_grouper module<a class="headerlink" href="#module-data_juicer.ops.grouper.naive_reverse_grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.naive_reverse_grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveReverseGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">batch_meta_export_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Split batched samples to samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">batch_meta_export_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>batch_meta_export_path</strong> – the path to export the batch meta.
+Just drop the batch meta if it is None.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.grouper">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.KeyValueGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.</span></span><span class="sig-name descname"><span class="pre">KeyValueGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.KeyValueGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group samples to batched samples according values in given keys.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.KeyValueGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.KeyValueGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>group_by_keys</strong> – group samples according values in the keys.
+Support for nested keys such as “__dj__stats__.text_len”.
+It is [self.text_key] in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.KeyValueGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.KeyValueGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group all samples to one batched sample.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveReverseGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveReverseGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">batch_meta_export_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveReverseGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Split batched samples to samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveReverseGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">batch_meta_export_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveReverseGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>batch_meta_export_path</strong> – the path to export the batch meta.
+Just drop the batch meta if it is None.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveReverseGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_reverse_grouper.html#NaiveReverseGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveReverseGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
-          <footer>
+          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
+        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-left" title="data_juicer.ops.filter package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-right" title="data_juicer.ops.mapper package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+    </div>
 
   <hr/>
 
diff --git a/data_juicer.ops.html b/data_juicer.ops.html
index b5d038c3e..857ac74f0 100644
--- a/data_juicer.ops.html
+++ b/data_juicer.ops.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.filter" href="data_juicer.ops.filter.html" />
-    <link rel="prev" title="data_juicer.core" href="data_juicer.core.html" /> 
+    <link rel="next" title="data_juicer.ops.aggregator package" href="data_juicer.ops.aggregator.html" />
+    <link rel="prev" title="data_juicer.core package" href="data_juicer.core.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,16 +42,24 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +76,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops</li>
+      <li class="breadcrumb-item active">data_juicer.ops package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,16 +86,3206 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops">
-<h1>data_juicer.ops<a class="headerlink" href="#data-juicer-ops" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-package">
+<h1>data_juicer.ops package<a class="headerlink" href="#data-juicer-ops-package" title="Link to this heading">¶</a></h1>
+<section id="subpackages">
+<h2>Subpackages<a class="headerlink" href="#subpackages" title="Link to this heading">¶</a></h2>
+<div class="toctree-wrapper compound">
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.aggregator.html">data_juicer.ops.aggregator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.attribute_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.meta_tags_aggregator">data_juicer.ops.aggregator.meta_tags_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_TAG_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.meta_map()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.query_most_relavant_entities()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator"><code class="docutils literal notranslate"><span class="pre">NestedAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.recursive_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator"><code class="docutils literal notranslate"><span class="pre">NestedAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.recursive_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_TAG_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.meta_map"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.meta_map()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MetaTagsAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.attribute_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.query_most_relavant_entities()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind"><code class="docutils literal notranslate"><span class="pre">UnionFind</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__"><code class="docutils literal notranslate"><span class="pre">UnionFind.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find"><code class="docutils literal notranslate"><span class="pre">UnionFind.find()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union"><code class="docutils literal notranslate"><span class="pre">UnionFind.union()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"><code class="docutils literal notranslate"><span class="pre">sha1_hash32()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"><code class="docutils literal notranslate"><span class="pre">optimal_param()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method"><code class="docutils literal notranslate"><span class="pre">get_hash_method()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend"><code class="docutils literal notranslate"><span class="pre">Backend</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__"><code class="docutils literal notranslate"><span class="pre">Backend.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique"><code class="docutils literal notranslate"><span class="pre">Backend.is_unique()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend"><code class="docutils literal notranslate"><span class="pre">ActorBackend</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__"><code class="docutils literal notranslate"><span class="pre">ActorBackend.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique"><code class="docutils literal notranslate"><span class="pre">ActorBackend.is_unique()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend"><code class="docutils literal notranslate"><span class="pre">RedisBackend</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__"><code class="docutils literal notranslate"><span class="pre">RedisBackend.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique"><code class="docutils literal notranslate"><span class="pre">RedisBackend.is_unique()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.calculate_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.calc_minhash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.merge_op_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.merge()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.filter_with_union_find()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method"><code class="docutils literal notranslate"><span class="pre">get_hash_method()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.calculate_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.calc_minhash"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.calc_minhash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge_op_batch"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.merge_op_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.merge()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.filter_with_union_find()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.run"><code class="docutils literal notranslate"><span class="pre">RayBTSMinhashDeduplicator.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise"><code class="docutils literal notranslate"><span class="pre">separate_signal_noise()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr"><code class="docutils literal notranslate"><span class="pre">compute_nmf_snr()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases"><code class="docutils literal notranslate"><span class="pre">find_noun_phrases()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation"><code class="docutils literal notranslate"><span class="pre">remove_punctuation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner"><code class="docutils literal notranslate"><span class="pre">run_ner()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number"><code class="docutils literal notranslate"><span class="pre">is_number()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture"><code class="docutils literal notranslate"><span class="pre">VideoCapture()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_flow()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.compute_flow()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area"><code class="docutils literal notranslate"><span class="pre">triangle_area()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.get_reader()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_flow()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.compute_flow()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.get_reader()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.grouper.html">data_juicer.ops.grouper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_reverse_grouper">data_juicer.ops.grouper.naive_reverse_grouper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.process"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveReverseGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter"><code class="docutils literal notranslate"><span class="pre">prepare_converter()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">data_juicer.ops.mapper.dialog_intent_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">data_juicer.ops.mapper.dialog_sentiment_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">data_juicer.ops.mapper.dialog_topic_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.add_message()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.light_rag_extraction()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api"><code class="docutils literal notranslate"><span class="pre">call_gpt_vision_api()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper">data_juicer.ops.mapper.query_intent_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">data_juicer.ops.mapper.query_sentiment_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper">data_juicer.ops.mapper.query_topic_detection_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence"><code class="docutils literal notranslate"><span class="pre">split_sentence()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.recursively_chunk()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.get_text_chunks()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale"><code class="docutils literal notranslate"><span class="pre">rescale()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.STRATEGY</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer"><code class="docutils literal notranslate"><span class="pre">create_replacer()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.split_videos_by_duration()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer"><code class="docutils literal notranslate"><span class="pre">create_replacer()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.get_split_key_frame()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func"><code class="docutils literal notranslate"><span class="pre">replace_func()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.avaliable_detectors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogIntentDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogSentimentDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogSentimentIntensityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.build_input"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">DialogTopicDetectionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.add_message()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.light_rag_extraction()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.build_input"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QuerySentimentDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QueryIntentDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">QueryTopicDetectionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.__init__"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.recursively_chunk()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.get_text_chunks()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.STRATEGY</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.split_videos_by_duration()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.get_split_key_frame()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.avaliable_detectors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RandomSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process"><code class="docutils literal notranslate"><span class="pre">RandomSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector">data_juicer.ops.selector.tags_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RandomSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.process"><code class="docutils literal notranslate"><span class="pre">RandomSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TagsSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</div>
+</section>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.base_op">
+<span id="data-juicer-ops-base-op-module"></span><h2>data_juicer.ops.base_op module<a class="headerlink" href="#module-data_juicer.ops.base_op" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_list_dict_to_dict_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_list_dict_to_dict_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_list_dict_to_dict_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_list_dict_to_dict_list" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_dict_list_to_list_dict">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_dict_list_to_list_dict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_dict_list_to_list_dict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_dict_list_to_list_dict" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_arrow_to_python">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_arrow_to_python</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_arrow_to_python"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_arrow_to_python" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.catch_map_batches_exception">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">catch_map_batches_exception</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#catch_map_batches_exception"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.catch_map_batches_exception" title="Link to this definition">¶</a></dt>
+<dd><p>For batched-map sample-level fault tolerance.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.catch_map_single_exception">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">catch_map_single_exception</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#catch_map_single_exception"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.catch_map_single_exception" title="Link to this definition">¶</a></dt>
+<dd><p>For single-map sample-level fault tolerance.
+The input sample is expected batch_size = 1.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">OP</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class of operators.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+<li><p><strong>index_key</strong> – index the samples before process if not None</p></li>
+<li><p><strong>batch_size</strong> – the batch size for processing</p></li>
+<li><p><strong>work_dir</strong> – the working directory for this operator</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.is_batched_op">
+<span class="sig-name descname"><span class="pre">is_batched_op</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.is_batched_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.is_batched_op" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.process" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.use_cuda">
+<span class="sig-name descname"><span class="pre">use_cuda</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.use_cuda"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.use_cuda" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.runtime_np">
+<span class="sig-name descname"><span class="pre">runtime_np</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.runtime_np"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.runtime_np" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.remove_extra_parameters">
+<span class="sig-name descname"><span class="pre">remove_extra_parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">param_dict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.remove_extra_parameters"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.remove_extra_parameters" title="Link to this definition">¶</a></dt>
+<dd><p>at the begining of the init of the mapper op, call
+self.remove_extra_parameters(locals())
+to get the init parameter dict of the op for convenience</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.add_parameters">
+<span class="sig-name descname"><span class="pre">add_parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">init_parameter_dict</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">extra_param_dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.add_parameters"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.add_parameters" title="Link to this definition">¶</a></dt>
+<dd><p>add parameters for each sample, need to keep extra_param_dict
+and init_parameter_dict unchanged.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.empty_history">
+<span class="sig-name descname"><span class="pre">empty_history</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.empty_history"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.empty_history" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts data editing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that removes specific info.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts deduplication.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts selection in dataset-level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Grouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Aggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.load">
+<span id="data-juicer-ops-load-module"></span><h2>data_juicer.ops.load module<a class="headerlink" href="#module-data_juicer.ops.load" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.load.load_ops">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.load.</span></span><span class="sig-name descname"><span class="pre">load_ops</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">process_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/load.html#load_ops"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.load.load_ops" title="Link to this definition">¶</a></dt>
+<dd><p>Load op list according to the process list from config file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>process_list</strong> – A process list. Each item is an op name and its
+arguments.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The op instance list.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.op_fusion">
+<span id="data-juicer-ops-op-fusion-module"></span><h2>data_juicer.ops.op_fusion module<a class="headerlink" href="#module-data_juicer.ops.op_fusion" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.fuse_operators">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">fuse_operators</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ops</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">probe_res</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#fuse_operators"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.fuse_operators" title="Link to this definition">¶</a></dt>
+<dd><p>Fuse the input ops list and return the fused ops list.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ops</strong> – the corresponding list of op objects.</p></li>
+<li><p><strong>probe_res</strong> – the probed speed for each OP from Monitor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of fused op objects.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.fuse_filter_group">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">fuse_filter_group</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_filter_group</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#fuse_filter_group"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.fuse_filter_group" title="Link to this definition">¶</a></dt>
+<dd><p>Fuse single filter group and return the fused filter group.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>original_filter_group</strong> – the original filter group, including op
+definitions and objects.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the fused definitions and objects of the input filter group.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">FusedFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>A fused operator for filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>fused_filters</strong> – a list of filters to be fused.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.load_ops">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">load_ops</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">process_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/load.html#load_ops"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.load_ops" title="Link to this definition">¶</a></dt>
+<dd><p>Load op list according to the process list from config file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>process_list</strong> – A process list. Each item is an op name and its
+arguments.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The op instance list.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that removes specific info.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Filter.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Mapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Mapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts data editing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Mapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Mapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Mapper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Deduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Deduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts deduplication.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Deduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Deduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Deduplicator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Selector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Selector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts selection in dataset-level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Selector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Selector.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Grouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Grouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Grouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Grouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Grouper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.Aggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Aggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Aggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Aggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.Aggregator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.core.html" class="btn btn-neutral float-left" title="data_juicer.core" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-right" title="data_juicer.ops.filter" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.core.html" class="btn btn-neutral float-left" title="data_juicer.core package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.aggregator.html" class="btn btn-neutral float-right" title="data_juicer.ops.aggregator package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.mapper.html b/data_juicer.ops.mapper.html
index 0d1c754ce..73125cb90 100644
--- a/data_juicer.ops.mapper.html
+++ b/data_juicer.ops.mapper.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.mapper package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.deduplicator" href="data_juicer.ops.deduplicator.html" />
-    <link rel="prev" title="data_juicer.ops.filter" href="data_juicer.ops.filter.html" /> 
+    <link rel="next" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" />
+    <link rel="prev" title="data_juicer.ops.grouper package" href="data_juicer.ops.grouper.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,16 +42,91 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">data_juicer.ops.mapper.dialog_intent_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">data_juicer.ops.mapper.dialog_sentiment_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">data_juicer.ops.mapper.dialog_topic_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.query_intent_detection_mapper">data_juicer.ops.mapper.query_intent_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">data_juicer.ops.mapper.query_sentiment_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.query_topic_detection_mapper">data_juicer.ops.mapper.query_topic_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +143,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.mapper.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,16 +154,7700 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops-mapper">
-<h1>data_juicer.ops.mapper<a class="headerlink" href="#data-juicer-ops-mapper" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-mapper-package">
+<h1>data_juicer.ops.mapper package<a class="headerlink" href="#data-juicer-ops-mapper-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">
+<span id="data-juicer-ops-mapper-audio-ffmpeg-wrapped-mapper-module"></span><h2>data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.</span></span><span class="sig-name descname"><span class="pre">AudioFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg audio filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg audio filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_qa_mapper">
+<span id="data-juicer-ops-mapper-calibrate-qa-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_qa_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_qa_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_qa_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to calibrate question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对【问题】和【回答】进行校准，使其更加详细、准确。\n按照以下格式输出：\n【问题】\n校准后的问题\n【回答】\n校准后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{reference}\n{qa_pair}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_REFERENCE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the calibration task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>reference_template</strong> – Template for formatting the reference text.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting question-answer pairs.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_query_mapper">
+<span id="data-juicer-ops-mapper-calibrate-query-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_query_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_query_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_query_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate query in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【问题】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以由原答案回答。只输出校准后的问题，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_response_mapper">
+<span id="data-juicer-ops-mapper-calibrate-response-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_response_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_response_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_response_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate response in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【回答】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以回答原问题。只输出校准后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.chinese_convert_mapper">
+<span id="data-juicer-ops-mapper-chinese-convert-mapper-module"></span><h2>data_juicer.ops.mapper.chinese_convert_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.chinese_convert_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.chinese_convert_mapper.</span></span><span class="sig-name descname"><span class="pre">prepare_converter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#prepare_converter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.chinese_convert_mapper.</span></span><span class="sig-name descname"><span class="pre">ChineseConvertMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to convert Chinese between Traditional Chinese, Simplified Chinese
+and Japanese Kanji.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – <p>Choose the mode to convert Chinese:</p>
+<p>s2t: Simplified Chinese to Traditional Chinese,</p>
+<p>t2s: Traditional Chinese to Simplified Chinese,</p>
+<p>s2tw: Simplified Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2s: Traditional Chinese (Taiwan Standard) to Simplified Chinese,</p>
+<p>s2hk: Simplified Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>hk2s: Traditional Chinese (Hong Kong variant) to Simplified
+Chinese,</p>
+<p>s2twp: Simplified Chinese to Traditional Chinese (Taiwan Standard)
+with Taiwanese idiom,</p>
+<p>tw2sp: Traditional Chinese (Taiwan Standard) to Simplified Chinese
+with Mainland Chinese idiom,</p>
+<p>t2tw: Traditional Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2t: Traditional Chinese (Taiwan standard) to Traditional Chinese,</p>
+<p>hk2t: Traditional Chinese (Hong Kong variant) to Traditional
+Chinese,</p>
+<p>t2hk: Traditional Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>t2jp: Traditional Chinese Characters (Kyūjitai) to New Japanese
+Kanji,</p>
+<p>jp2t: New Japanese Kanji (Shinjitai) to Traditional Chinese
+Characters,</p>
+</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_copyright_mapper">
+<span id="data-juicer-ops-mapper-clean-copyright-mapper-module"></span><h2>data_juicer.ops.mapper.clean_copyright_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_copyright_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_copyright_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanCopyrightMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean copyright comments at the beginning of the text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_email_mapper">
+<span id="data-juicer-ops-mapper-clean-email-mapper-module"></span><h2>data_juicer.ops.mapper.clean_email_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_email_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_email_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean email in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_html_mapper">
+<span id="data-juicer-ops-mapper-clean-html-mapper-module"></span><h2>data_juicer.ops.mapper.clean_html_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_html_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_html_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean html code in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_ip_mapper">
+<span id="data-juicer-ops-mapper-clean-ip-mapper-module"></span><h2>data_juicer.ops.mapper.clean_ip_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_ip_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_ip_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_links_mapper">
+<span id="data-juicer-ops-mapper-clean-links-mapper-module"></span><h2>data_juicer.ops.mapper.clean_links_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_links_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_links_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean links like http/https/ftp in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.dialog_intent_detection_mapper">
+<span id="data-juicer-ops-mapper-dialog-intent-detection-mapper-module"></span><h2>data_juicer.ops.mapper.dialog_intent_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.dialog_intent_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.dialog_intent_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">DialogIntentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intent_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s intent labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户的意图。\n要求：\n-</span> <span class="pre">需要先进行分析，然后列出用户所具有的意图，下面是一个样例，请模仿样例格式输出。\n用户：你好，我最近对人工智能很感兴趣，能给我讲讲什么是机器学习吗？\n意图分析：用户在请求信息，希望了解有关机器学习的基础知识。\n意图类别：信息查找\nLLM：你好！当然可以。机器学习是一种人工智能方法，允许计算机通过数据自动改进和学习。\n用户：听起来很有趣，有没有推荐的入门书籍或资料？\n意图分析：用户在请求建议，希望获取关于机器学习的入门资源。\n意图类别：请求建议\nLLM：有很多不错的入门书籍和资源。一本常被推荐的书是《Python机器学习实践》（Python</span> <span class="pre">Machine</span> <span class="pre">Learning），它涵盖了基础知识和一些实际案例。此外，您还可以参考Coursera或edX上的在线课程，这些课程提供了系统的学习路径。\n用户：谢谢你的建议！我还想知道，学习机器学习需要什么样的数学基础？\n意图分析：用户在寻求信息，希望了解学习机器学习所需的前提条件，特别是在数学方面。\n意图类别：信息查找\nLLM：学习机器学习通常需要一定的数学基础，特别是线性代数、概率论和统计学。这些数学领域帮助理解算法的工作原理和数据模式分析。如果您对这些主题不太熟悉，建议先从相关基础书籍或在线资源开始学习。\n用户：明白了，我会先补习这些基础知识。再次感谢你的帮助！\n意图分析：用户表达感谢，并表示计划付诸行动来补充所需的基础知识。\n意图类别：其他'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选意图类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intent_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>intent_candidates</strong> – The output intent candidates. Use the
+intent labels of the open domain if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_intent_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is ‘dialog_intent_labels_analysis’
+in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for intent candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return intent
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return intent
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">
+<span id="data-juicer-ops-mapper-dialog-sentiment-detection-mapper-module"></span><h2>data_juicer.ops.mapper.dialog_sentiment_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.dialog_sentiment_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">DialogSentimentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sentiment_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s sentiment labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户所具有的情绪。\n要求：\n-</span> <span class="pre">需要先进行分析，然后罗列用户所具有的情绪，下面是一个样例，请模仿样例格式输出。\n用户：最近工作压力好大，我觉得整个人都快被压垮了。\n情感分析：用户的言语中透露出明显的压力和疲惫感，可能还夹杂着一些无助和焦虑。\n情感类别：压力、疲惫、无助、焦虑\nLLM：听起来你真的承受了很多，面临这种情况确实不容易。有没有考虑过找一些放松的方式，比如听音乐或者散步来减轻压力呢？\n用户：试过了，但是好像没什么效果，每天的事情都堆积如山。\n情感分析：用户感到无力解决现状，有挫败感，并且对尝试放松的方式失去信心。\n情感类别：无力、挫败\nLLM：我理解你的感受，有时候压力积累到一定程度确实让人难以承受。或许你可以尝试规划一下时间，把任务分成小块来完成，这样可能会减少一些压力感。\n用户：这个主意不错，我会试着让自己更有条理一些，谢谢你的建议。\n情感分析：用户对建议表现出认同和感激，同时展现出试图积极面对问题的态度。\n情感类别：认同、感激、积极\nLLM：不用谢，我很高兴能帮到你。记得给自己一些时间去适应新的计划，有任何需要随时可以跟我说哦！\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选情感类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sentiment_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>sentiment_candidates</strong> – The output sentiment candidates. Use
+open-domain sentiment labels if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_sentiment_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is
+‘dialog_sentiment_labels_analysis’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for sentiment candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return sentiment
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return sentiment
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">
+<span id="data-juicer-ops-mapper-dialog-sentiment-intensity-mapper-module"></span><h2>data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.</span></span><span class="sig-name descname"><span class="pre">DialogSentimentIntensityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensities_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s sentiment intensity (from -5 to 5 in default
+prompt) in dialog. Input from history_key, query_key and
+response_key. Output lists of intensities and analysis for queries in
+the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户的情绪变化。\n要求：\n-</span> <span class="pre">用户情绪值是-5到5之间到整数，-5表示极度负面，5表示极度正面，-5到5之间数值表示情绪从负面逐渐到正面的变化过程，0代表情呈绪中性。\n-</span> <span class="pre">只输出当轮对话的分析，不要继续构造对话。\n-</span> <span class="pre">需要先进行分析，然后确定用户的情绪值，下面是一个样例，请模仿样例格式输出。\n用户：你好，我对可持续发展的定义有点模糊，帮我解释一下？\n情绪分析：刚开始，还没得到LLM回复，用户情绪呈中性。\n情绪值：0\nLLM：当然可以！可持续发展是指在满足当代人的需求的同时，不损害子孙后代满足其自身需求的能力的发展模式。它包括经济发展、社会发展和环境保护三个主要方面。通过合理利用资源和保护环境，我们可以确保未来的世代也能享有健全的生态系统和经济制度。\n用户：谢谢你的解释！那你能告诉我一些普通人可以采取的可持续生活方式吗？\n情绪分析：对回答感到满意，情绪正面。\n情绪值：1\nLLM：当然可以，普通人可以通过减少一次性产品的使用、选择公共交通或拼车、节约用水、以及支持本地和可持续发展的企业等方式来践行可持续生活。此外，关注垃圾分类和多用电子账单也是不错的选择。\n用户：你提到支持本地企业，这一点我很感兴趣。能详细说说为什么这对可持续发展有促进作用吗？\n情绪分析：觉得回答实用且具体，情绪进一步转好。\n情绪值：2\nLLM：呃，我最近发现了一部新电影，讲述了一个关于外星人和地球土著合作保护环境的故事。虽然它是科幻片，但很有启发性，推荐你去看看。\n用户：什么吗，根本是答非所问。\n情绪分析：LLM没有回应问题而是提到无关内容，导致用户情绪直线下降。\n情绪值：-2\nLLM：抱歉刚才的偏题！支持本地企业有助于减少长途运输产生的碳足迹，使供应链更加环保。此外，本地企业也更有可能采用可持续的生产方式，同时促进社区经济的繁荣。\n用户：还行吧，算你能够掰回来。\n情绪分析：问题得到解答，问题偏题得到纠正，情绪稍有好转。\n情绪值：-1\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INTENSITY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪值：{intensity}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_INTENSITY_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪值：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensities_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>intensities_key</strong> – The key name in the meta field to store
+the output sentiment intensities. It is
+‘dialog_sentiment_intensity’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is
+‘dialog_sentiment_intensity_analysis’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>intensity_template</strong> – Template for intensity part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return sentiment
+analysis.</p></li>
+<li><p><strong>intensity_pattern</strong> – Pattern to parse the return sentiment
+intensity.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.dialog_topic_detection_mapper">
+<span id="data-juicer-ops-mapper-dialog-topic-detection-mapper-module"></span><h2>data_juicer.ops.mapper.dialog_topic_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.dialog_topic_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.dialog_topic_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">DialogTopicDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topic_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s topic labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户所讨论的话题。\n要求：\n-</span> <span class="pre">针对用户的每个query，需要先进行分析，然后列出用户正在讨论的话题，下面是一个样例，请模仿样例格式输出。\n用户：你好，今天我们来聊聊秦始皇吧。\n话题分析：用户提到秦始皇，这是中国历史上第一位皇帝。\n话题类别：历史\nLLM：当然可以，秦始皇是中国历史上第一个统一全国的皇帝，他在公元前221年建立了秦朝，并采取了一系列重要的改革措施，如统一文字、度量衡和货币等。\n用户：秦始皇修建的长城和现在的长城有什么区别？\n话题分析：用户提到秦始皇修建的长城，并将其与现代长城进行比较，涉及建筑历史和地理位置。\n话题类别：历史LLM：秦始皇时期修建的长城主要是为了抵御北方游牧民族的入侵，它的规模和修建技术相对较为简陋。现代人所看到的长城大部分是明朝时期修建和扩建的，明长城不仅规模更大、结构更坚固，而且保存得比较完好。\n用户：有意思，那么长城的具体位置在哪些省份呢？\n话题分析：用户询问长城的具体位置，涉及到地理知识。\n话题类别：地理\nLLM：长城横跨中国北方多个省份，主要包括河北、山西、内蒙古、宁夏、陕西、甘肃和北京等。每一段长城都建在关键的战略位置，以便最大限度地发挥其防御作用。\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选话题类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topic_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>topic_candidates</strong> – The output topic candidates. Use
+open-domain topic labels if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_topic_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is ‘dialog_topic_labels_analysis’
+in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for topic candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return topic
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return topic
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.expand_macro_mapper">
+<span id="data-juicer-ops-mapper-expand-macro-mapper-module"></span><h2>data_juicer.ops.mapper.expand_macro_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.expand_macro_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.expand_macro_mapper.</span></span><span class="sig-name descname"><span class="pre">ExpandMacroMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to expand macro definitions in the document body of Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_entity_attribute_mapper">
+<span id="data-juicer-ops-mapper-extract-entity-attribute-mapper-module"></span><h2>data_juicer.ops.mapper.extract_entity_attribute_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_entity_attribute_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_entity_attribute_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityAttributeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attributes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_descriptions'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_support_texts'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract attributes for given entities from the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，从文本中总结{entity}的{attribute}，并且从原文摘录最能说明该{attribute}的代表性示例。\n要求：\n-</span> <span class="pre">摘录的示例应该简短。\n-</span> <span class="pre">遵循如下的回复格式：\n#</span> <span class="pre">{entity}\n##</span> <span class="pre">{attribute}：\n...\n###</span> <span class="pre">代表性示例摘录1：\n```\n...\n```\n###</span> <span class="pre">代表性示例摘录2：\n```\n...\n```\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ATTR_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\s*{attribute}：\\s*(.*?)(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_DEMON_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\#\\s*代表性示例摘录(\\d+)：\\s*```\\s*(.*?)```\\s*(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attributes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_descriptions'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_support_texts'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param query_entities: Entity list to be queried.
+:param query_attributes: Attribute list to be queried.
+:param entity_key: The key name in the meta field to store the</p>
+<blockquote>
+<div><p>given main entity for attribute extraction. It’s “entity” in
+default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>entity_attribute_key</strong> – The key name in the meta field to
+store the given attribute to be extracted. It’s “attribute”
+in default.</p></li>
+<li><p><strong>attribute_desc_key</strong> – The key name in the meta field to store
+the extracted attribute description. It’s
+“attribute_description” in default.</p></li>
+<li><p><strong>support_text_key</strong> – The key name in the meta field to store
+the attribute support text extracted from the raw text.
+It’s “support_text” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the
+task. Need to be specified by given entity and attribute.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>attr_pattern_template</strong> – Pattern for parsing the attribute from
+output. Need to be specified by given attribute.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Param<span class="colon">:</span></dt>
+<dd class="field-even"><p>demo_pattern: Pattern for parsing the demonstraction from
+output to support the attribute.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_entity_relation_mapper">
+<span id="data-juicer-ops-mapper-extract-entity-relation-mapper-module"></span><h2>data_juicer.ops.mapper.extract_entity_relation_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_entity_relation_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_entity_relation_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityRelationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract entities and relations in the text for knowledge graph.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">all</span> <span class="pre">entities.</span> <span class="pre">For</span> <span class="pre">each</span> <span class="pre">identified</span> <span class="pre">entity,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">entity_name:</span> <span class="pre">Name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\n-</span> <span class="pre">entity_type:</span> <span class="pre">One</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">types:</span> <span class="pre">[{entity_types}]\n-</span> <span class="pre">entity_description:</span> <span class="pre">Comprehensive</span> <span class="pre">description</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\'s</span> <span class="pre">attributes</span> <span class="pre">and</span> <span class="pre">activities\nFormat</span> <span class="pre">each</span> <span class="pre">entity</span> <span class="pre">as</span> <span class="pre">(&quot;entity&quot;{tuple_delimiter}&lt;entity_name&gt;{tuple_delimiter}&lt;entity_type&gt;{tuple_delimiter}&lt;entity_description&gt;\n\n2.</span> <span class="pre">From</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">pairs</span> <span class="pre">of</span> <span class="pre">(source_entity,</span> <span class="pre">target_entity)</span> <span class="pre">that</span> <span class="pre">are</span> <span class="pre">*clearly</span> <span class="pre">related*</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other.\nFor</span> <span class="pre">each</span> <span class="pre">pair</span> <span class="pre">of</span> <span class="pre">related</span> <span class="pre">entities,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">source_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">target_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">relationship_description:</span> <span class="pre">explanation</span> <span class="pre">as</span> <span class="pre">to</span> <span class="pre">why</span> <span class="pre">you</span> <span class="pre">think</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity</span> <span class="pre">are</span> <span class="pre">related</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other\n-</span> <span class="pre">relationship_strength:</span> <span class="pre">a</span> <span class="pre">numeric</span> <span class="pre">score</span> <span class="pre">indicating</span> <span class="pre">strength</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship</span> <span class="pre">between</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">target</span> <span class="pre">entity\n-</span> <span class="pre">relationship_keywords:</span> <span class="pre">one</span> <span class="pre">or</span> <span class="pre">more</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">nature</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship,</span> <span class="pre">focusing</span> <span class="pre">on</span> <span class="pre">concepts</span> <span class="pre">or</span> <span class="pre">themes</span> <span class="pre">rather</span> <span class="pre">than</span> <span class="pre">specific</span> <span class="pre">details\nFormat</span> <span class="pre">each</span> <span class="pre">relationship</span> <span class="pre">as</span> <span class="pre">(&quot;relationship&quot;{tuple_delimiter}&lt;source_entity&gt;{tuple_delimiter}&lt;target_entity&gt;{tuple_delimiter}&lt;relationship_description&gt;{tuple_delimiter}&lt;relationship_keywords&gt;{tuple_delimiter}&lt;relationship_strength&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text</span> <span class="pre">as</span> <span class="pre">a</span> <span class="pre">single</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">all</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">and</span> <span class="pre">relationships</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">steps</span> <span class="pre">1</span> <span class="pre">and</span> <span class="pre">2.</span> <span class="pre">Use</span> <span class="pre">**{record_delimiter}**</span> <span class="pre">as</span> <span class="pre">the</span> <span class="pre">list</span> <span class="pre">delimiter.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">technology,</span> <span class="pre">mission,</span> <span class="pre">organization,</span> <span class="pre">location]\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">character</span> <span class="pre">who</span> <span class="pre">experiences</span> <span class="pre">frustration</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">observant</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">is</span> <span class="pre">portrayed</span> <span class="pre">with</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">shows</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">a</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">a</span> <span class="pre">change</span> <span class="pre">in</span> <span class="pre">perspective.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Jordan</span> <span class="pre">shares</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">and</span> <span class="pre">has</span> <span class="pre">a</span> <span class="pre">significant</span> <span class="pre">interaction</span> <span class="pre">with</span> <span class="pre">Taylor</span> <span class="pre">regarding</span> <span class="pre">a</span> <span class="pre">device.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Cruz</span> <span class="pre">is</span> <span class="pre">associated</span> <span class="pre">with</span> <span class="pre">a</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order,</span> <span class="pre">influencing</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;technology&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device</span> <span class="pre">is</span> <span class="pre">central</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">story,</span> <span class="pre">with</span> <span class="pre">potential</span> <span class="pre">game-changing</span> <span class="pre">implications,</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">revered</span> <span class="pre">by</span> <span class="pre">Taylor.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">affected</span> <span class="pre">by</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">observes</span> <span class="pre">changes</span> <span class="pre">in</span> <span class="pre">Taylor\'s</span> <span class="pre">attitude</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">perspective</span> <span class="pre">shift&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">share</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery,</span> <span class="pre">which</span> <span class="pre">contrasts</span> <span class="pre">with</span> <span class="pre">Cruz\'s</span> <span class="pre">vision.&quot;{tuple_delimiter}&quot;shared</span> <span class="pre">goals,</span> <span class="pre">rebellion&quot;{tuple_delimiter}6){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">interact</span> <span class="pre">directly</span> <span class="pre">regarding</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">leading</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">mutual</span> <span class="pre">respect</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.&quot;{tuple_delimiter}&quot;conflict</span> <span class="pre">resolution,</span> <span class="pre">mutual</span> <span class="pre">respect&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;Jordan\'s</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">is</span> <span class="pre">in</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.&quot;{tuple_delimiter}&quot;ideological</span> <span class="pre">conflict,</span> <span class="pre">rebellion&quot;{tuple_delimiter}5){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">shows</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">its</span> <span class="pre">importance</span> <span class="pre">and</span> <span class="pre">potential</span> <span class="pre">impact.&quot;{tuple_delimiter}&quot;reverence,</span> <span class="pre">technological</span> <span class="pre">significance&quot;{tuple_delimiter}9){record_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nEntity_types:</span> <span class="pre">[人物,</span> <span class="pre">技术,</span> <span class="pre">任务,</span> <span class="pre">组织,</span> <span class="pre">地点]\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;地点&quot;{tuple_delimiter}&quot;华盛顿是正在接收通讯的地方，表明其在决策过程中的重要性。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;任务&quot;{tuple_delimiter}&quot;杜尔塞行动被描述为一项已演变为互动和准备的任务，显示出目标和活动的重大转变。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;组织&quot;{tuple_delimiter}&quot;团队被描绘成一群从被动观察者转变为积极参与者的人，展示了他们角色的动态变化。&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;团队收到来自华盛顿的通讯，这影响了他们的决策过程。&quot;{tuple_delimiter}&quot;决策、外部影响&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;团队直接参与杜尔塞行动，执行其演变后的目标和活动。&quot;{tuple_delimiter}&quot;任务演变、积极参与&quot;{tuple_delimiter}9){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">member</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">working</span> <span class="pre">on</span> <span class="pre">communicating</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">showing</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">leader</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">attempting</span> <span class="pre">first</span> <span class="pre">contact</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">acknowledging</span> <span class="pre">the</span> <span class="pre">significance</span> <span class="pre">of</span> <span class="pre">their</span> <span class="pre">task.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Control</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">ability</span> <span class="pre">to</span> <span class="pre">manage</span> <span class="pre">or</span> <span class="pre">govern,</span> <span class="pre">which</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Intelligence</span> <span class="pre">here</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">entity</span> <span class="pre">capable</span> <span class="pre">of</span> <span class="pre">writing</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules</span> <span class="pre">and</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">potential</span> <span class="pre">initial</span> <span class="pre">communication</span> <span class="pre">between</span> <span class="pre">humanity</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">collective</span> <span class="pre">action</span> <span class="pre">taken</span> <span class="pre">by</span> <span class="pre">Alex\'s</span> <span class="pre">team</span> <span class="pre">in</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">directly</span> <span class="pre">involved</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">process</span> <span class="pre">of</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;communication,</span> <span class="pre">learning</span> <span class="pre">process&quot;{tuple_delimiter}9){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">leads</span> <span class="pre">the</span> <span class="pre">team</span> <span class="pre">that</span> <span class="pre">might</span> <span class="pre">be</span> <span class="pre">making</span> <span class="pre">the</span> <span class="pre">First</span> <span class="pre">Contact</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;leadership,</span> <span class="pre">exploration&quot;{tuple_delimiter}10){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">his</span> <span class="pre">team</span> <span class="pre">are</span> <span class="pre">the</span> <span class="pre">key</span> <span class="pre">figures</span> <span class="pre">in</span> <span class="pre">Humanity\'s</span> <span class="pre">Response</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;collective</span> <span class="pre">action,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;The</span> <span class="pre">concept</span> <span class="pre">of</span> <span class="pre">Control</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">the</span> <span class="pre">Intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">autonomy&quot;{tuple_delimiter}7){record_delimiter}\n#############################\n-Real</span> <span class="pre">Data-\n######################\nEntity_types:</span> <span class="pre">[{entity_types}]\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_CONTINUE_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'MANY</span> <span class="pre">entities</span> <span class="pre">were</span> <span class="pre">missed</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">last</span> <span class="pre">extraction.</span>&#160; <span class="pre">Add</span> <span class="pre">them</span> <span class="pre">below</span> <span class="pre">using</span> <span class="pre">the</span> <span class="pre">same</span> <span class="pre">format:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_IF_LOOP_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'It</span> <span class="pre">appears</span> <span class="pre">some</span> <span class="pre">entities</span> <span class="pre">may</span> <span class="pre">have</span> <span class="pre">still</span> <span class="pre">been</span> <span class="pre">missed.</span>&#160; <span class="pre">Answer</span> <span class="pre">YES</span> <span class="pre">|</span> <span class="pre">NO</span> <span class="pre">if</span> <span class="pre">there</span> <span class="pre">are</span> <span class="pre">still</span> <span class="pre">entities</span> <span class="pre">that</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">added.\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_TYPES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['organization',</span> <span class="pre">'person',</span> <span class="pre">'geo',</span> <span class="pre">'event']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_TUPLE_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_RECORD_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'##'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;entity&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_RELATION_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;relationship&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity_types: Pre-defined entity types for knowledge graph.
+:param entity_key: The key name to store the entities in the meta</p>
+<blockquote>
+<div><p>field. It’s “entity” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relation_key</strong> – The field name to store the relations between
+entities. It’s “relation” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>tuple_delimiter</strong> – Delimiter to separate items in outputs.</p></li>
+<li><p><strong>record_delimiter</strong> – Delimiter to separate records in outputs.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>max_gleaning</strong> – the extra max num to call LLM to glean entities
+and relations.</p></li>
+<li><p><strong>continue_prompt</strong> – the prompt for gleaning entities and
+relations.</p></li>
+<li><p><strong>if_loop_prompt</strong> – the prompt to determine whether to stop
+gleaning.</p></li>
+<li><p><strong>entity_pattern</strong> – Regular expression for parsing entity record.</p></li>
+<li><p><strong>relation_pattern</strong> – Regular expression for parsing relation
+record.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">
+<span class="sig-name descname"><span class="pre">add_message</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">role</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">content</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.add_message"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">
+<span class="sig-name descname"><span class="pre">light_rag_extraction</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.light_rag_extraction"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_event_mapper">
+<span id="data-juicer-ops-mapper-extract-event-mapper-module"></span><h2>data_juicer.ops.mapper.extract_event_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_event_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_event_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEventMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relevant_characters'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract events and relevant characters in the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，对文本的情节进行分点总结，并抽取与情节相关的人物。\n要求：\n-</span> <span class="pre">尽量不要遗漏内容，不要添加文本中没有的情节，符合原文事实\n-</span> <span class="pre">联系上下文说明前因后果，但仍然需要符合事实\n-</span> <span class="pre">不要包含主观看法\n-</span> <span class="pre">注意要尽可能保留文本的专有名词\n-</span> <span class="pre">注意相关人物需要在对应情节中出现\n-</span> <span class="pre">只抽取情节中的主要人物，不要遗漏情节的主要人物\n-</span> <span class="pre">总结格式如下：\n###</span> <span class="pre">情节1：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，人物3，...\n###</span> <span class="pre">情节2：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，...\n###</span> <span class="pre">情节3：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，...\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*情节(\\d+)：\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*情节描述\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*相关人物\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relevant_characters'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param event_desc_key: The key name to store the event descriptions</p>
+<blockquote>
+<div><p>in the meta field. It’s “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relevant_char_key</strong> – The field name to store the relevant
+characters to the events in the meta field. It’s
+“relevant_characters” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_keyword_mapper">
+<span id="data-juicer-ops-mapper-extract-keyword-mapper-module"></span><h2>data_juicer.ops.mapper.extract_keyword_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_keyword_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_keyword_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractKeywordMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'keyword'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate keywords for the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">main</span> <span class="pre">concepts,</span> <span class="pre">themes,</span> <span class="pre">or</span> <span class="pre">topics</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entire</span> <span class="pre">text.</span> <span class="pre">These</span> <span class="pre">should</span> <span class="pre">capture</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">ideas</span> <span class="pre">present</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">document.\nFormat</span> <span class="pre">the</span> <span class="pre">content-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">as</span> <span class="pre">(&quot;content_keywords&quot;</span> <span class="pre">&lt;high_level_keywords&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">ideological</span> <span class="pre">conflict,</span> <span class="pre">discovery,</span> <span class="pre">rebellion&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;任务演变,</span> <span class="pre">决策制定,</span> <span class="pre">积极参与,</span> <span class="pre">宇宙意义&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;first</span> <span class="pre">contact,</span> <span class="pre">control,</span> <span class="pre">communication,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;){completion_delimiter}\n-Real</span> <span class="pre">Data-\n######################\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;content_keywords&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'keyword'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param keyword_key: The key name to store the keywords in the meta</p>
+<blockquote>
+<div><p>field. It’s “keyword” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing keywords.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_nickname_mapper">
+<span id="data-juicer-ops-mapper-extract-nickname-mapper-module"></span><h2>data_juicer.ops.mapper.extract_nickname_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_nickname_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_nickname_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractNicknameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'nickname'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract nickname relationship in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定你一段文本，你的任务是将人物之间的称呼方式（昵称）提取出来。\n要求：\n-</span> <span class="pre">需要给出说话人对被称呼人的称呼，不要搞反了。\n-</span> <span class="pre">相同的说话人和被称呼人最多给出一个最常用的称呼。\n-</span> <span class="pre">请不要输出互相没有昵称的称呼方式。\n-</span> <span class="pre">输出格式如下：\n```\n###</span> <span class="pre">称呼方式1\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式2\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式3\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n...\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*称呼方式(\\d+)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*说话人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*被称呼人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*(.*?)对(.*?)的昵称\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)</span> <span class="pre">#</span> <span class="pre">for</span> <span class="pre">double</span> <span class="pre">check\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'nickname'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param nickname_key: The key name to store the nickname</p>
+<blockquote>
+<div><p>relationship in the meta field. It’s “nickname” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_support_text_mapper">
+<span id="data-juicer-ops-mapper-extract-support-text-mapper-module"></span><h2>data_juicer.ops.mapper.extract_support_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_support_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_support_text_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractSupportTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'support_text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract support sub text for a summary.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你将扮演一个文本摘录助手的角色。你的主要任务是基于给定的文章（称为“原文”）以及对原文某个部分的简短描述或总结（称为“总结”），准确地识别并提取出与该总结相对应的原文片段。\n要求：\n-</span> <span class="pre">你需要尽可能精确地匹配到最符合总结内容的那部分内容\n-</span> <span class="pre">如果存在多个可能的答案，请选择最贴近总结意思的那个\n-</span> <span class="pre">下面是一个例子帮助理解这一过程：\n###</span> <span class="pre">原文：\n《红楼梦》是中国古典小说四大名著之一，由清代作家曹雪芹创作。它讲述了贾宝玉、林黛玉等人的爱情故事及四大家族的兴衰历程。书中通过复杂的人物关系展现了封建社会的各种矛盾冲突。其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。此外，《红楼梦》还以其精美的诗词闻名，这些诗词不仅增添了文学色彩，也深刻反映了人物的性格特点和命运走向。\n\n###</span> <span class="pre">总结：\n描述了书中的两个女性角色之间围绕权力展开的竞争。\n\n###</span> <span class="pre">原文摘录：\n其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'###</span> <span class="pre">原文：\n{text}\n\n###</span> <span class="pre">总结：\n{summary}\n\n###</span> <span class="pre">原文摘录：\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'support_text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param summary_key: The key name to store the input summary in the</p>
+<blockquote>
+<div><p>meta field. It’s “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>support_text_key</strong> – The key name to store the output
+support text for the summary in the meta field. It’s
+“support_text” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.fix_unicode_mapper">
+<span id="data-juicer-ops-mapper-fix-unicode-mapper-module"></span><h2>data_juicer.ops.mapper.fix_unicode_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.fix_unicode_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.fix_unicode_mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to fix unicode errors in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>normalization</strong> – the specified form of Unicode
+normalization mode, which can be one of
+[‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’], default ‘NFC’.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">
+<span id="data-juicer-ops-mapper-generate-qa-from-examples-mapper-module"></span><h2>data_juicer.ops.mapper.generate_qa_from_examples_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.generate_qa_from_examples_mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromExamplesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from examples.
+You should configure an empty dataset in your yaml config file:
+<a href="#id1"><span class="problematic" id="id2">``</span></a>`
+generated_dataset_config:</p>
+<blockquote>
+<div><p>type: ‘EmptyFormatter’  # use <cite>RayEmptyFormatter</cite> when enable ray
+length: ${The number of generated samples}
+feature_keys: ${text key}</p>
+</div></blockquote>
+<p><a href="#id3"><span class="problematic" id="id4">``</span></a>`
+The number of samples generated is determined by
+the length of the empty dataset.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请你仔细观察多个示例数据的输入和输出，按照你的理解，总结出相应规矩，然后写出一个新的【问题】和【回答】。注意，新生成的【问题】和【回答】需要满足如下要求：\n1.</span> <span class="pre">生成的【问题】和【回答】不能与输入的【问题】和【回答】一致，但是需要保持格式相同。\n2.</span> <span class="pre">生成的【问题】不一定要局限于输入【问题】的话题或领域，生成的【回答】需要正确回答生成的【问题】。\n3.</span> <span class="pre">提供的【问题】和【回答】可能是多轮对话，生成的【问题】和【回答】也可以是多轮，但是需要保持格式相同。\n4.</span> <span class="pre">生成的【问题】和【回答】必须成对出现，而且【问题】需要在【回答】之前。\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_EXAMPLE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n如下是一条示例数据：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】(.*?)【回答】(.*?)(?=【问题】|$)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>seed_file</strong> – Path to the seed file in chatml format.</p></li>
+<li><p><strong>example_num</strong> – The number of selected examples.
+Randomly select N examples from “seed_file” and
+put them into prompt as QA examples.</p></li>
+<li><p><strong>similarity_threshold</strong> – The similarity score threshold
+between the generated samples and the seed examples.
+Range from 0 to 1. Samples with similarity score less than
+this threshold will be kept.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input prompt. It must
+include one placeholder ‘{}’, which will be replaced by
+<cite>example_num</cite> formatted examples defined by <cite>example_template</cite>.</p></li>
+<li><p><strong>example_template</strong> – Template for formatting one QA example. It
+must include one placeholder ‘{}’, which will be replaced by one
+formatted qa_pair.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting a single QA pair
+within each example. Must include two placeholders ‘{}’ for the
+question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract questions
+and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">qa_examples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.generate_qa_from_text_mapper">
+<span id="data-juicer-ops-mapper-generate-qa-from-text-mapper-module"></span><h2>data_juicer.ops.mapper.generate_qa_from_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.generate_qa_from_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.generate_qa_from_text_mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from text.
+Recommended model list: [</p>
+<blockquote>
+<div><p>‘alibaba-pai/pai-llama3-8b-doc2qa’,
+‘alibaba-pai/pai-baichuan2-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-4b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-1b8-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-0b5-doc2qa’</p>
+</div></blockquote>
+<p>]
+These recommended models are all trained with Chinese data
+and are suitable for Chinese.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>max_num</strong> – The max num of returned QA sample for each text.
+Not limit if it is None.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract
+questions and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation,
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+<p>The default data format parsed by this interface is as follows:
+Model Input:</p>
+<blockquote>
+<div><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）</p>
+</div></blockquote>
+<dl class="simple">
+<dt>Model Output:</dt><dd><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）
+Human: 请问蒙古国的首都是哪里？
+Assistant: 你好，根据提供的信息，蒙古国的首都是乌兰巴托（Ulaanbaatar）。
+Human: 冰岛的首都是哪里呢？
+Assistant: 冰岛的首都是雷克雅未克（Reykjavik）。
+…</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_blur_mapper">
+<span id="data-juicer-ops-mapper-image-blur-mapper-module"></span><h2>data_juicer.ops.mapper.image_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>p</strong> – Probability of the image being blured.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">
+<span id="data-juicer-ops-mapper-image-captioning-from-gpt4v-mapper-module"></span><h2>data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.</span></span><span class="sig-name descname"><span class="pre">call_gpt_vision_api</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">base64_image</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_tokens</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'gpt-4-vision-preview'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#call_gpt_vision_api"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningFromGPT4VMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose texts are generated based on
+gpt-4-visison and the image.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – mode of text generated from images, can be one of
+[‘resoning’, ‘description’, ‘conversation’, ‘custom’]</p></li>
+<li><p><strong>api_key</strong> – the API key to authenticate the request.</p></li>
+<li><p><strong>max_token</strong> – the maximum number of tokens to generate.
+Default is 500.</p></li>
+<li><p><strong>temperature</strong> – controls the randomness of the output (range
+from 0 to 1). Default is 0.</p></li>
+<li><p><strong>system_prompt</strong> – a string prompt used to set the context of a
+conversation and provide global guidance or rules for the
+gpt4-vision so that it can  generate responses in the expected way.
+If <cite>mode</cite> set to <cite>custom</cite>, the parameter will be used.</p></li>
+<li><p><strong>user_prompt</strong> – a string prompt to guide the generation of
+gpt4-vision for each samples. It’s “” in default, which means no
+prompt provided.</p></li>
+<li><p><strong>uers_prompt_key</strong> – the key name of fields in samples to store
+prompts for each sample. It’s used for set different prompts for
+different samples. If it’s none, use prompt in parameter “prompt”.
+It’s None in default.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated text in the
+final datasets and the original text will be removed. It’s True
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_captioning_mapper">
+<span id="data-juicer-ops-mapper-image-captioning-mapper-module"></span><h2>data_juicer.ops.mapper.image_captioning_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_captioning_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+another model and the figure.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each image</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of blip2 model
+for all samples globally. It’s None in default, which means no
+prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_diffusion_mapper">
+<span id="data-juicer-ops-mapper-image-diffusion-mapper-module"></span><h2>data_juicer.ops.mapper.image_diffusion_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_diffusion_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_diffusion_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageDiffusionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate image by diffusion model</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_diffusion</strong> – diffusion model name on huggingface to generate
+the image.</p></li>
+<li><p><strong>torch_dtype</strong> – the floating point type used to load the diffusion
+model. Can be one of [‘fp32’, ‘fp16’, ‘bf16’]</p></li>
+<li><p><strong>revision</strong> – The specific model version to use. It can be a
+branch name, a tag name, a commit id, or any identifier allowed
+by Git.</p></li>
+<li><p><strong>strength</strong> – Indicates extent to transform the reference image.
+Must be between 0 and 1. image is used as a starting point and
+more noise is added the higher the strength. The number of
+denoising steps depends on the amount of noise initially added.
+When strength is 1, added noise is maximum and the denoising
+process runs for the full number of iterations specified in
+num_inference_steps. A value of 1 essentially ignores image.</p></li>
+<li><p><strong>guidance_scale</strong> – A higher guidance scale value encourages the
+model to generate images closely linked to the text prompt at the
+expense of lower image quality. Guidance scale is enabled when
+guidance_scale &gt; 1.</p></li>
+<li><p><strong>aug_num</strong> – The image number to be produced by stable-diffusion
+model.</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>caption_key</strong> – the key name of fields in samples to store captions
+for each images. It can be a string if there is only one image in
+each sample. Otherwise, it should be a list. If it’s none,
+ImageDiffusionMapper will produce captions for each images.</p></li>
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption if
+caption_key is None.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote aug_num as $M$.
+the number of total samples after generation is  $(1+M)Nb$.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_face_blur_mapper">
+<span id="data-juicer-ops-mapper-image-face-blur-mapper-module"></span><h2>data_juicer.ops.mapper.image_face_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_face_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_face_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_tagging_mapper">
+<span id="data-juicer-ops-mapper-image-tagging-mapper-module"></span><h2>data_juicer.ops.mapper.image_tagging_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_tagging_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_tagging_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageTaggingMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'image_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate image tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'image_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param tag_field_name: the field name to store the tags. It’s</p>
+<blockquote>
+<div><p>“image_tags” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.nlpaug_en_mapper">
+<span id="data-juicer-ops-mapper-nlpaug-en-mapper-module"></span><h2>data_juicer.ops.mapper.nlpaug_en_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.nlpaug_en_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpaug_en_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpaugEnMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in English based on nlpaug library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>delete_random_word</strong> – whether to open the augmentation method of
+deleting random words from the original texts. e.g. “I love LLM”
+–&gt; “I LLM”</p></li>
+<li><p><strong>swap_random_word</strong> – whether to open the augmentation method of
+swapping random contiguous words in the original texts. e.g. “I
+love LLM” –&gt; “Love I LLM”</p></li>
+<li><p><strong>spelling_error_word</strong> – whether to open the augmentation method of
+simulating the spelling error for words in the original texts. e.g.
+“I love LLM” –&gt; “Ai love LLM”</p></li>
+<li><p><strong>split_random_word</strong> – whether to open the augmentation method of
+splitting words randomly with whitespaces in the original texts.
+e.g. “I love LLM” –&gt; “I love LL M”</p></li>
+<li><p><strong>keyboard_error_char</strong> – whether to open the augmentation method of
+simulating the keyboard error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I ;ov4 LLM”</p></li>
+<li><p><strong>ocr_error_char</strong> – whether to open the augmentation method of
+simulating the OCR error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I 10ve LLM”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g. “I love
+LLM” –&gt; “I oe LLM”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts.
+e.g. “I love LLM” –&gt; “I ovle LLM”</p></li>
+<li><p><strong>insert_random_char</strong> – whether to open the augmentation method of
+inserting random characters into the original texts. e.g. “I love
+LLM” –&gt; “I ^lKove LLM”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.nlpcda_zh_mapper">
+<span id="data-juicer-ops-mapper-nlpcda-zh-mapper-module"></span><h2>data_juicer.ops.mapper.nlpcda_zh_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.nlpcda_zh_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpcda_zh_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpcdaZhMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in Chinese based on nlpcda library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly. <strong>Notice</strong>: some augmentation method might not work for
+some special texts, so there might be no augmented texts generated.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>replace_similar_word</strong> – whether to open the augmentation method of
+replacing random words with their similar words in the original
+texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这边一共有5种不同的数据增强方法”</p></li>
+<li><p><strong>replace_homophone_char</strong> – whether to open the augmentation method
+of replacing random characters with their homophones in the
+original texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的濖据增强方法”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据增强”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据强增方法”</p></li>
+<li><p><strong>replace_equivalent_num</strong> – whether to open the augmentation method
+of replacing random numbers with their equivalent representations
+in the original texts. <strong>Notice</strong>: Only for numbers for now. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有伍种不同的数据增强方法”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_qa_mapper">
+<span id="data-juicer-ops-mapper-optimize-qa-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_qa_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_qa_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_qa_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to optimize question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化输入的问答对，使【问题】和【回答】都更加详细、准确。必须按照以下标记格式，直接输出优化后的问答对：\n【问题】\n优化后的问题\n【回答】\n优化后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'以下是原始问答对：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugging Face model ID.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the optimization task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input for the model.
+Please make sure the template contains one placeholder ‘{}’, which
+corresponds to the question and answer pair generated by
+param <cite>qa_pair_template</cite>.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting the question and
+answer pair. Please make sure the template contains two
+‘{}’ to format question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract question
+and answer from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use VLLM for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation (e.g.,
+{‘temperature’: 0.9, ‘top_p’: 0.95}).</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_query_mapper">
+<span id="data-juicer-ops-mapper-optimize-query-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_query_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_query_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_query_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize query in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'优化问答对中的【问题】，将其更加详细具体，但仍可以由原答案回答。只输出优化后的【问题】，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_response_mapper">
+<span id="data-juicer-ops-mapper-optimize-response-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_response_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_response_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_response_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize response in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化问答对中的回答，将其更加详细具体，但仍可以回答原问题。只输出优化后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.pair_preference_mapper">
+<span id="data-juicer-ops-mapper-pair-preference-mapper-module"></span><h2>data_juicer.ops.mapper.pair_preference_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.pair_preference_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.pair_preference_mapper.</span></span><span class="sig-name descname"><span class="pre">PairPreferenceMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to construct paired preference samples.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你的任务是根据参考信息修改问答对中的回答，在语言风格、事实性、人物身份、立场等任一方面与原回答相反。必须按照以下标记格式输出，不要输出其他多余内容。\n【回答】\n生成的新回答\n【原因】\n生成该回答的原因'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{reference}\n\n以下是原始问答对：\n【问题】\n{query}\n【回答】\n{response}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【回答】\\s*(.*?)\\s*【原因】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input. It must
+contain placeholders ‘{query}’ and ‘{reponse}’, and can optionally
+include ‘{reference}’.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>rejected_key</strong> – The field name in the sample to store the
+generated rejected response. Defaults to ‘rejected_response’.</p></li>
+<li><p><strong>reason_key</strong> – The field name in the sample to store the reason for
+generating the response. Defaults to ‘reason’.</p></li>
+<li><p><strong>try_num</strong> – The number of retries for the API call in case of
+response parsing failure. Defaults to 3.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.punctuation_normalization_mapper">
+<span id="data-juicer-ops-mapper-punctuation-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.punctuation_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.punctuation_normalization_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.punctuation_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">PunctuationNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize unicode punctuations to English punctuations in text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.python_file_mapper">
+<span id="data-juicer-ops-mapper-python-file-mapper-module"></span><h2>data_juicer.ops.mapper.python_file_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.python_file_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.python_file_mapper.</span></span><span class="sig-name descname"><span class="pre">PythonFileMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python function defined in a file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>file_path</strong> – The path to the Python file containing the function
+to be executed.</p></li>
+<li><p><strong>function_name</strong> – The name of the function defined in the file
+to be executed.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided samples.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.python_lambda_mapper">
+<span id="data-juicer-ops-mapper-python-lambda-mapper-module"></span><h2>data_juicer.ops.mapper.python_lambda_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.python_lambda_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.python_lambda_mapper.</span></span><span class="sig-name descname"><span class="pre">PythonLambdaMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python lambda function on data samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lambda_str</strong> – A string representation of the lambda function to be
+executed on data samples. If empty, the identity function is used.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.query_intent_detection_mapper">
+<span id="data-juicer-ops-mapper-query-intent-detection-mapper-module"></span><h2>data_juicer.ops.mapper.query_intent_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.query_intent_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.query_intent_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">QueryIntentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'bespin-global/klue-roberta-small-3i4k-intent-classification'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s Intent label in query. Input from query_key.
+Output intent label and corresponding score for the query.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'bespin-global/klue-roberta-small-3i4k-intent-classification'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict intent label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_intent_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_intent_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.query_sentiment_detection_mapper">
+<span id="data-juicer-ops-mapper-query-sentiment-detection-mapper-module"></span><h2>data_juicer.ops.mapper.query_sentiment_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.query_sentiment_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.query_sentiment_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">QuerySentimentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s sentiment label (‘negative’, ‘neutral’ and
+‘positive’) in query. Input from query_key.
+Output label and corresponding score for the query, which is
+store in ‘query_sentiment_label’ and
+‘query_sentiment_label_score’ in Data-Juicer meta field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict sentiment label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_sentiment_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_sentiment_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.query_topic_detection_mapper">
+<span id="data-juicer-ops-mapper-query-topic-detection-mapper-module"></span><h2>data_juicer.ops.mapper.query_topic_detection_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.query_topic_detection_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.query_topic_detection_mapper.</span></span><span class="sig-name descname"><span class="pre">QueryTopicDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dstefa/roberta-base_topic_classification_nyt_news'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s topic label in query. Input from query_key.
+Output topic label and corresponding score for the query, which is
+store in ‘query_topic_label’ and ‘query_topic_label_score’ in
+Data-Juicer meta field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dstefa/roberta-base_topic_classification_nyt_news'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict topic label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_topic_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_topic_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.relation_identity_mapper">
+<span id="data-juicer-ops-mapper-relation-identity-mapper-module"></span><h2>data_juicer.ops.mapper.relation_identity_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.relation_identity_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.relation_identity_mapper.</span></span><span class="sig-name descname"><span class="pre">RelationIdentityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'role_relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>identify relation between two entity in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定关于{entity1}和{entity2}的文本信息。判断{entity1}和{entity2}之间的关系。\n要求：\n-</span> <span class="pre">关系用一个或多个词语表示，必要时可以加一个形容词来描述这段关系\n-</span> <span class="pre">输出关系时不要参杂任何标点符号\n-</span> <span class="pre">需要你进行合理的推理才能得出结论\n-</span> <span class="pre">如果两个人物身份是同一个人，输出关系为：另一个身份\n-</span> <span class="pre">输出格式为：\n分析推理：...\n所以{entity2}是{entity1}的：...\n-</span> <span class="pre">注意输出的是{entity2}是{entity1}的什么关系，而不是{entity1}是{entity2}的什么关系'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'关于{entity1}和{entity2}的文本信息：\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*分析推理：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*所以{entity2}是{entity1}的：\\s*(.*?)\\Z\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'role_relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param source_entity: The source entity of the relation to be</p>
+<blockquote>
+<div><p>identified.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>target_entity</strong> – The target entity of the relation to be
+identified.</p></li>
+<li><p><strong>output_key</strong> – The output key in the meta field in the
+samples. It is ‘role_relation’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern_template</strong> – Regular expression template for
+parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_bibliography_mapper">
+<span id="data-juicer-ops-mapper-remove-bibliography-mapper-module"></span><h2>data_juicer.ops.mapper.remove_bibliography_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_bibliography_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_bibliography_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveBibliographyMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove bibliography at the end of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_comments_mapper">
+<span id="data-juicer-ops-mapper-remove-comments-mapper-module"></span><h2>data_juicer.ops.mapper.remove_comments_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_comments_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_comments_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveCommentsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove comments in different kinds of documents.</p>
+<p>Only support ‘tex’ for now.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>doc_type</strong> – Type of document to remove comments.</p></li>
+<li><p><strong>inline</strong> – Whether to remove inline comments.</p></li>
+<li><p><strong>multiline</strong> – Whether to remove multiline comments.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_header_mapper">
+<span id="data-juicer-ops-mapper-remove-header-mapper-module"></span><h2>data_juicer.ops.mapper.remove_header_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_header_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_header_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveHeaderMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove headers at the beginning of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>drop_no_head</strong> – whether to drop sample texts without
+headers.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_long_words_mapper">
+<span id="data-juicer-ops-mapper-remove-long-words-mapper-module"></span><h2>data_juicer.ops.mapper.remove_long_words_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_long_words_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_long_words_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove long words within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min mapper word length in this op, words
+will be filtered if their length is below this parameter.</p></li>
+<li><p><strong>max_len</strong> – The max mapper word length in this op, words
+will be filtered if their length exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">
+<span class="sig-name descname"><span class="pre">should_keep_long_word</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.should_keep_long_word"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">
+<span id="data-juicer-ops-mapper-remove-non-chinese-character-mapper-module"></span><h2>data_juicer.ops.mapper.remove_non_chinese_character_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_non_chinese_character_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveNonChineseCharacterlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove non chinese Character in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_alphabet</strong> – whether to keep alphabet</p></li>
+<li><p><strong>keep_number</strong> – whether to keep number</p></li>
+<li><p><strong>keep_punc</strong> – whether to keep punctuation</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">
+<span id="data-juicer-ops-mapper-remove-repeat-sentences-mapper-module"></span><h2>data_juicer.ops.mapper.remove_repeat_sentences_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_repeat_sentences_mapper.</span></span><span class="sig-name descname"><span class="pre">split_sentence</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#split_sentence"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_repeat_sentences_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveRepeatSentencesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove repeat sentences in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_special_character</strong> – Whether to ignore special
+characters when judging repeated sentences. Special characters
+are all characters except Chinese characters, letters and
+numbers.</p></li>
+<li><p><strong>min_repeat_sentence_length</strong> – Sentences shorter than this
+length will not be deduplicated. If ignore_special_character is
+set to True, then special characters are not included in this
+length.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_specific_chars_mapper">
+<span id="data-juicer-ops-mapper-remove-specific-chars-mapper-module"></span><h2>data_juicer.ops.mapper.remove_specific_chars_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_specific_chars_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_specific_chars_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean specific chars in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>chars_to_remove</strong> – a list or a string including all
+characters that need to be removed from text.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_table_text_mapper">
+<span id="data-juicer-ops-mapper-remove-table-text-mapper-module"></span><h2>data_juicer.ops.mapper.remove_table_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_table_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_table_text_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveTableTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove table texts from text samples.</p>
+<p>Regular expression is used to remove tables in the range of column
+number of tables.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_col</strong> – The min number of columns of table to remove.</p></li>
+<li><p><strong>max_col</strong> – The max number of columns of table to remove.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">
+<span id="data-juicer-ops-mapper-remove-words-with-incorrect-substrings-mapper-module"></span><h2>data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove words with incorrect substrings.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>substrings</strong> – The incorrect substrings in words.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
+<span class="sig-name descname"><span class="pre">should_keep_word_with_incorrect_substrings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.replace_content_mapper">
+<span id="data-juicer-ops-mapper-replace-content-mapper-module"></span><h2>data_juicer.ops.mapper.replace_content_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.replace_content_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.replace_content_mapper.</span></span><span class="sig-name descname"><span class="pre">ReplaceContentMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to replace all content in the text that matches
+a specific regular expression pattern with a designated
+replacement string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern(s) to search for within text</p></li>
+<li><p><strong>repl</strong> – replacement string(s), default is empty string</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.sentence_split_mapper">
+<span id="data-juicer-ops-mapper-sentence-split-mapper-module"></span><h2>data_juicer.ops.mapper.sentence_split_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.sentence_split_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.sentence_split_mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split text samples to sentences.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – split sentence of text in which language.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.text_chunk_mapper">
+<span id="data-juicer-ops-mapper-text-chunk-mapper-module"></span><h2>data_juicer.ops.mapper.text_chunk_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.text_chunk_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.text_chunk_mapper.</span></span><span class="sig-name descname"><span class="pre">TextChunkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Split input text to chunks.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>max_len</strong> – Split text into multi texts with this max len if not
+None.</p></li>
+<li><p><strong>split_pattern</strong> – Make sure split in this pattern if it is not None
+and force cut if the length exceeds max_len.</p></li>
+<li><p><strong>overlap_len</strong> – Overlap length of the split texts if not split in
+the split pattern.</p></li>
+<li><p><strong>tokenizer</strong> – The tokenizer name of Hugging Face tokenizers.
+The text length will be calculate as the token num if it is offerd.
+Otherwise, the text length equals to string length. Support
+tiktoken tokenizer (such as gpt-4o), dashscope tokenizer (such as
+qwen2.5-72b-instruct) and huggingface tokenizer.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+<dt class="field-even">Trust_remote_code<span class="colon">:</span></dt>
+<dd class="field-even"><p>for loading huggingface model</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">
+<span class="sig-name descname"><span class="pre">recursively_chunk</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.recursively_chunk"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">
+<span class="sig-name descname"><span class="pre">get_text_chunks</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.get_text_chunks"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-audio-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_audio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_audio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to caption a video according to its audio streams based on
+Qwen-Audio model.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only captioned sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+an image-to-text model and sampled video frames. Captions from different
+frames will be concatenated to a single string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of image-to-text
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-summarizer-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromSummarizerMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video captions by summarizing several kinds of generated
+texts (captions from video/audio/frames, tags from audio/frames, …)</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_summarizer</strong> – the summarizer model used to summarize texts
+generated by other methods.</p></li>
+<li><p><strong>consider_video_caption_from_video</strong> – whether to consider the video
+caption generated from video directly in the summarization process.
+Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_audio</strong> – whether to consider the video
+caption generated from audio streams in the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_frames</strong> – whether to consider the
+video caption generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_audio</strong> – whether to consider the video
+tags generated from audio streams in the video in the summarization
+process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_frames</strong> – whether to consider the video
+tags generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>vid_cap_from_vid_args</strong> – the arg dict for video captioning from
+video directly with keys are the arg names and values are the arg
+values. Default: None.</p></li>
+<li><p><strong>vid_cap_from_frm_args</strong> – the arg dict for video captioning from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_aud_args</strong> – the arg dict for video tagging from audio
+streams in the video with keys are the arg names and values are the
+arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_frm_args</strong> – the arg dict for video tagging from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>keep_tag_num</strong> – max number N of tags from sampled frames to keep.
+Too many tags might bring negative influence to summarized text, so
+we consider to only keep the N most frequent tags. Default: 5.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only summarized captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_video_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-video-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_video_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_video_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_video_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromVideoMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+a video-to-text model and sampled video frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_video_blip</strong> – video-blip model name on huggingface
+to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of video-blip
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_extract_frames_mapper">
+<span id="data-juicer-ops-mapper-video-extract-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_extract_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_extract_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_extract_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoExtractFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'video_frames'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to extract frames from video files according to specified methods.
+Extracted Frames Data Format:</p>
+<blockquote>
+<div><p>The data format for the extracted frames is a dictionary mapping
+video key to extracted frames directory where the extracted
+frames are saved. The dictionary follows the structure:
+{</p>
+<blockquote>
+<div><p>“video_key_1”: “/${frame_dir}/video_key_1_filename/”,
+“video_key_2”: “/${frame_dir}/video_key_2_filename/”,
+…</p>
+</div></blockquote>
+<p>}</p>
+</div></blockquote>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'video_frames'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param frame_sampling_method: sampling method of extracting frame</p>
+<blockquote>
+<div><p>videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+If “duration” &gt; 0, frame_sampling_method acts on every segment.
+Default: “all_keyframes”.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.
+If “duration” &gt; 0, frame_num is the number of frames per segment.</p></li>
+<li><p><strong>duration</strong> – The duration of each segment in seconds.
+If 0, frames are extracted from the entire video.
+If duration &gt; 0, the video is segmented into multiple segments
+based on duration, and frames are extracted from each segment.</p></li>
+<li><p><strong>frame_dir</strong> – Output directory to save extracted frames.
+If None, a default directory based on the video file path is used.</p></li>
+<li><p><strong>frame_key</strong> – The name of field to save generated frames info.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_face_blur_mapper">
+<span id="data-juicer-ops-mapper-video-face-blur-mapper-module"></span><h2>data_juicer.ops.mapper.video_face_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_face_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_face_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in videos.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">
+<span id="data-juicer-ops-mapper-video-ffmpeg-wrapped-mapper-module"></span><h2>data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg video filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg video filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_remove_watermark_mapper">
+<span id="data-juicer-ops-mapper-video-remove-watermark-mapper-module"></span><h2>data_juicer.ops.mapper.video_remove_watermark_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_remove_watermark_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_remove_watermark_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoRemoveWatermarkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Remove the watermarks in videos given regions.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>roi_strings</strong> – a given list of regions the watermarks locate.
+The format of each can be “x1, y1, x2, y2”, “(x1, y1, x2, y2)”,
+or “[x1, y1, x2, y2]”.</p></li>
+<li><p><strong>roi_type</strong> – the roi string type. When the type is ‘pixel’, (x1,
+y1), (x2, y2) are the locations of pixels in the top left corner
+and the bottom right corner respectively. If the roi_type is
+‘ratio’, the coordinates are normalized by wights and heights.</p></li>
+<li><p><strong>roi_key</strong> – the key name of fields in samples to store roi_strings
+for each sample. It’s used for set different rois for different
+samples. If it’s none, use rois in parameter “roi_strings”.
+It’s None in default.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video to detect the pixels of watermark.</p></li>
+<li><p><strong>min_frame_threshold</strong> – a coodination is considered as the
+location of a watermark pixel when it is that in no less
+min_frame_threshold frames.</p></li>
+<li><p><strong>detection_method</strong> – the method to detect the pixels of watermark.
+If it is ‘pixel_value’, we consider the distribution of pixel
+value in each frame. If it is ‘pixel_diversity’, we will consider
+the pixel diversity in different frames. The min_frame_threshold
+is useless and frame_num must be greater than 1 in
+‘pixel_diversity’ mode.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">
+<span id="data-juicer-ops-mapper-video-resize-aspect-ratio-mapper-module"></span><h2>data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.</span></span><span class="sig-name descname"><span class="pre">rescale</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">width</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">height</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ori_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#rescale"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeAspectRatioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos by aspect ratio.
+AspectRatio = W / H.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY">
+<span class="sig-name descname"><span class="pre">STRATEGY</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['decrease',</span> <span class="pre">'increase']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to enforce videos with
+an aspect ratio below <cite>min_ratio</cite> will be resized to match
+this minimum ratio. The ratio should be provided as a string
+in the format “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to enforce videos with
+an aspect ratio above <cite>max_ratio</cite> will be resized to match
+this maximum ratio. The ratio should be provided as a string
+in the format “21:9” or “21/9”.</p></li>
+<li><p><strong>strategy</strong> – The resizing strategy to apply when adjusting the
+video dimensions. It can be either ‘decrease’ to reduce the
+dimension or ‘increase’ to enlarge it. Accepted values are
+[‘decrease’, ‘increase’].</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_resize_resolution_mapper">
+<span id="data-juicer-ops-mapper-video-resize-resolution-mapper-module"></span><h2>data_juicer.ops.mapper.video_resize_resolution_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_resize_resolution_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_resolution_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeResolutionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos resolution. We leave the super resolution
+with deep learning for future works.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – Videos with width less than ‘min_width’ will be
+mapped to videos with equal or bigger width.</p></li>
+<li><p><strong>max_width</strong> – Videos with width more than ‘max_width’ will be
+mapped to videos with equal of smaller width.</p></li>
+<li><p><strong>min_height</strong> – Videos with height less than ‘min_height’ will be
+mapped to videos with equal or bigger height.</p></li>
+<li><p><strong>max_height</strong> – Videos with height more than ‘max_height’ will be
+mapped to videos with equal or smaller height.</p></li>
+<li><p><strong>force_original_aspect_ratio</strong> – Enable decreasing or             increasing output video width or height if necessary             to keep the original aspect ratio, including [‘disable’,             ‘decrease’, ‘increase’].</p></li>
+<li><p><strong>force_divisible_by</strong> – Ensures that both the output dimensions,             width and height, are divisible by the given integer when used             together with force_original_aspect_ratio, must be a positive             even number.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_duration_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-duration-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_duration_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_duration_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_duration_mapper.</span></span><span class="sig-name descname"><span class="pre">create_replacer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">replacements</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#create_replacer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_duration_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByDurationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by duration.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>split_duration</strong> – duration of each video split in seconds.</p></li>
+<li><p><strong>min_last_split_duration</strong> – The minimum allowable duration in
+seconds for the last video split. If the duration of the last
+split is less than this value, it will be discarded.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only cut sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">
+<span class="sig-name descname"><span class="pre">split_videos_by_duration</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.split_videos_by_duration"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-key-frame-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_key_frame_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_key_frame_mapper.</span></span><span class="sig-name descname"><span class="pre">create_replacer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">replacements</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#create_replacer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_key_frame_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByKeyFrameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by key frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only split sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">
+<span class="sig-name descname"><span class="pre">get_split_key_frame</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.get_split_key_frame"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_scene_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-scene-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_scene_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_scene_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_scene_mapper.</span></span><span class="sig-name descname"><span class="pre">replace_func</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">match</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">scene_counts_iter</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#replace_func"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_scene_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitBySceneMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to cut videos into scene clips.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors">
+<span class="sig-name descname"><span class="pre">avaliable_detectors</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'AdaptiveDetector':</span> <span class="pre">['window_width',</span> <span class="pre">'min_content_val',</span> <span class="pre">'weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size',</span> <span class="pre">'video_manager',</span> <span class="pre">'min_delta_hsv'],</span> <span class="pre">'ContentDetector':</span> <span class="pre">['weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size'],</span> <span class="pre">'ThresholdDetector':</span> <span class="pre">['fade_bias',</span> <span class="pre">'add_final_scene',</span> <span class="pre">'method',</span> <span class="pre">'block_size']}</span></em><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>detector</strong> – Algorithm from <cite>scenedetect.detectors</cite>. Should be one
+of [‘ContentDetector’, ‘ThresholdDetector’, ‘AdaptiveDetector`].</p></li>
+<li><p><strong>threshold</strong> – Threshold passed to the detector.</p></li>
+<li><p><strong>min_scene_len</strong> – Minimum length of any scene.</p></li>
+<li><p><strong>show_progress</strong> – Whether to show progress from scenedetect.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">
+<span id="data-juicer-ops-mapper-video-tagging-from-audio-mapper-module"></span><h2>data_juicer.ops.mapper.video_tagging_from_audio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_tagging_from_audio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_audio_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from audio streams extracted by video
+using the Audio Spectrogram Transformer.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_audio_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_ast</strong> – path to the HF model to tag from audios.</p></li>
+<li><p><strong>trust_remote_code</strong> – whether to trust the remote code of HF models</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“video_audio_tags” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">
+<span id="data-juicer-ops-mapper-video-tagging-from-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_tagging_from_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_tagging_from_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from frames extract by video.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“video_frame_tags” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.whitespace_normalization_mapper">
+<span id="data-juicer-ops-mapper-whitespace-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.whitespace_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.whitespace_normalization_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.whitespace_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">WhitespaceNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize different kinds of whitespaces to whitespace ‘ ‘ (0x20)
+in text samples.</p>
+<p>Different kinds of whitespaces can be found here:
+<a class="reference external" href="https://en.wikipedia.org/wiki/Whitespace_character">https://en.wikipedia.org/wiki/Whitespace_character</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.AudioFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">AudioFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.AudioFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg audio filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg audio filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to calibrate question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对【问题】和【回答】进行校准，使其更加详细、准确。\n按照以下格式输出：\n【问题】\n校准后的问题\n【回答】\n校准后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{reference}\n{qa_pair}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_REFERENCE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the calibration task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>reference_template</strong> – Template for formatting the reference text.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting question-answer pairs.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate query in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【问题】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以由原答案回答。只输出校准后的问题，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate response in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【回答】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以回答原问题。只输出校准后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ChineseConvertMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ChineseConvertMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ChineseConvertMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to convert Chinese between Traditional Chinese, Simplified Chinese
+and Japanese Kanji.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ChineseConvertMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ChineseConvertMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – <p>Choose the mode to convert Chinese:</p>
+<p>s2t: Simplified Chinese to Traditional Chinese,</p>
+<p>t2s: Traditional Chinese to Simplified Chinese,</p>
+<p>s2tw: Simplified Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2s: Traditional Chinese (Taiwan Standard) to Simplified Chinese,</p>
+<p>s2hk: Simplified Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>hk2s: Traditional Chinese (Hong Kong variant) to Simplified
+Chinese,</p>
+<p>s2twp: Simplified Chinese to Traditional Chinese (Taiwan Standard)
+with Taiwanese idiom,</p>
+<p>tw2sp: Traditional Chinese (Taiwan Standard) to Simplified Chinese
+with Mainland Chinese idiom,</p>
+<p>t2tw: Traditional Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2t: Traditional Chinese (Taiwan standard) to Traditional Chinese,</p>
+<p>hk2t: Traditional Chinese (Hong Kong variant) to Traditional
+Chinese,</p>
+<p>t2hk: Traditional Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>t2jp: Traditional Chinese Characters (Kyūjitai) to New Japanese
+Kanji,</p>
+<p>jp2t: New Japanese Kanji (Shinjitai) to Traditional Chinese
+Characters,</p>
+</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ChineseConvertMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ChineseConvertMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanCopyrightMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanCopyrightMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanCopyrightMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean copyright comments at the beginning of the text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanCopyrightMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanCopyrightMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanCopyrightMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanEmailMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanEmailMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean email in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanEmailMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanEmailMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanEmailMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanEmailMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanHtmlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanHtmlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean html code in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanHtmlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanHtmlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanHtmlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanHtmlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanIpMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanIpMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanIpMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanIpMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanIpMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanIpMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanLinksMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanLinksMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean links like http/https/ftp in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanLinksMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanLinksMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanLinksMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanLinksMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">DialogIntentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intent_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s intent labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户的意图。\n要求：\n-</span> <span class="pre">需要先进行分析，然后列出用户所具有的意图，下面是一个样例，请模仿样例格式输出。\n用户：你好，我最近对人工智能很感兴趣，能给我讲讲什么是机器学习吗？\n意图分析：用户在请求信息，希望了解有关机器学习的基础知识。\n意图类别：信息查找\nLLM：你好！当然可以。机器学习是一种人工智能方法，允许计算机通过数据自动改进和学习。\n用户：听起来很有趣，有没有推荐的入门书籍或资料？\n意图分析：用户在请求建议，希望获取关于机器学习的入门资源。\n意图类别：请求建议\nLLM：有很多不错的入门书籍和资源。一本常被推荐的书是《Python机器学习实践》（Python</span> <span class="pre">Machine</span> <span class="pre">Learning），它涵盖了基础知识和一些实际案例。此外，您还可以参考Coursera或edX上的在线课程，这些课程提供了系统的学习路径。\n用户：谢谢你的建议！我还想知道，学习机器学习需要什么样的数学基础？\n意图分析：用户在寻求信息，希望了解学习机器学习所需的前提条件，特别是在数学方面。\n意图类别：信息查找\nLLM：学习机器学习通常需要一定的数学基础，特别是线性代数、概率论和统计学。这些数学领域帮助理解算法的工作原理和数据模式分析。如果您对这些主题不太熟悉，建议先从相关基础书籍或在线资源开始学习。\n用户：明白了，我会先补习这些基础知识。再次感谢你的帮助！\n意图分析：用户表达感谢，并表示计划付诸行动来补充所需的基础知识。\n意图类别：其他'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选意图类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'意图类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intent_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_intent_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>intent_candidates</strong> – The output intent candidates. Use the
+intent labels of the open domain if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_intent_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is ‘dialog_intent_labels_analysis’
+in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for intent candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return intent
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return intent
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogIntentDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_intent_detection_mapper.html#DialogIntentDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogIntentDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">DialogSentimentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sentiment_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s sentiment labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户所具有的情绪。\n要求：\n-</span> <span class="pre">需要先进行分析，然后罗列用户所具有的情绪，下面是一个样例，请模仿样例格式输出。\n用户：最近工作压力好大，我觉得整个人都快被压垮了。\n情感分析：用户的言语中透露出明显的压力和疲惫感，可能还夹杂着一些无助和焦虑。\n情感类别：压力、疲惫、无助、焦虑\nLLM：听起来你真的承受了很多，面临这种情况确实不容易。有没有考虑过找一些放松的方式，比如听音乐或者散步来减轻压力呢？\n用户：试过了，但是好像没什么效果，每天的事情都堆积如山。\n情感分析：用户感到无力解决现状，有挫败感，并且对尝试放松的方式失去信心。\n情感类别：无力、挫败\nLLM：我理解你的感受，有时候压力积累到一定程度确实让人难以承受。或许你可以尝试规划一下时间，把任务分成小块来完成，这样可能会减少一些压力感。\n用户：这个主意不错，我会试着让自己更有条理一些，谢谢你的建议。\n情感分析：用户对建议表现出认同和感激，同时展现出试图积极面对问题的态度。\n情感类别：认同、感激、积极\nLLM：不用谢，我很高兴能帮到你。记得给自己一些时间去适应新的计划，有任何需要随时可以跟我说哦！\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选情感类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情感类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sentiment_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>sentiment_candidates</strong> – The output sentiment candidates. Use
+open-domain sentiment labels if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_sentiment_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is
+‘dialog_sentiment_labels_analysis’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for sentiment candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return sentiment
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return sentiment
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_detection_mapper.html#DialogSentimentDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">DialogSentimentIntensityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensities_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s sentiment intensity (from -5 to 5 in default
+prompt) in dialog. Input from history_key, query_key and
+response_key. Output lists of intensities and analysis for queries in
+the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户的情绪变化。\n要求：\n-</span> <span class="pre">用户情绪值是-5到5之间到整数，-5表示极度负面，5表示极度正面，-5到5之间数值表示情绪从负面逐渐到正面的变化过程，0代表情呈绪中性。\n-</span> <span class="pre">只输出当轮对话的分析，不要继续构造对话。\n-</span> <span class="pre">需要先进行分析，然后确定用户的情绪值，下面是一个样例，请模仿样例格式输出。\n用户：你好，我对可持续发展的定义有点模糊，帮我解释一下？\n情绪分析：刚开始，还没得到LLM回复，用户情绪呈中性。\n情绪值：0\nLLM：当然可以！可持续发展是指在满足当代人的需求的同时，不损害子孙后代满足其自身需求的能力的发展模式。它包括经济发展、社会发展和环境保护三个主要方面。通过合理利用资源和保护环境，我们可以确保未来的世代也能享有健全的生态系统和经济制度。\n用户：谢谢你的解释！那你能告诉我一些普通人可以采取的可持续生活方式吗？\n情绪分析：对回答感到满意，情绪正面。\n情绪值：1\nLLM：当然可以，普通人可以通过减少一次性产品的使用、选择公共交通或拼车、节约用水、以及支持本地和可持续发展的企业等方式来践行可持续生活。此外，关注垃圾分类和多用电子账单也是不错的选择。\n用户：你提到支持本地企业，这一点我很感兴趣。能详细说说为什么这对可持续发展有促进作用吗？\n情绪分析：觉得回答实用且具体，情绪进一步转好。\n情绪值：2\nLLM：呃，我最近发现了一部新电影，讲述了一个关于外星人和地球土著合作保护环境的故事。虽然它是科幻片，但很有启发性，推荐你去看看。\n用户：什么吗，根本是答非所问。\n情绪分析：LLM没有回应问题而是提到无关内容，导致用户情绪直线下降。\n情绪值：-2\nLLM：抱歉刚才的偏题！支持本地企业有助于减少长途运输产生的碳足迹，使供应链更加环保。此外，本地企业也更有可能采用可持续的生产方式，同时促进社区经济的繁荣。\n用户：还行吧，算你能够掰回来。\n情绪分析：问题得到解答，问题偏题得到纠正，情绪稍有好转。\n情绪值：-1\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INTENSITY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪值：{intensity}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_INTENSITY_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'情绪值：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensities_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_sentiment_intensity_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">intensity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>intensities_key</strong> – The key name in the meta field to store
+the output sentiment intensities. It is
+‘dialog_sentiment_intensity’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is
+‘dialog_sentiment_intensity_analysis’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>intensity_template</strong> – Template for intensity part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return sentiment
+analysis.</p></li>
+<li><p><strong>intensity_pattern</strong> – Pattern to parse the return sentiment
+intensity.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogSentimentIntensityMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_sentiment_intensity_mapper.html#DialogSentimentIntensityMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogSentimentIntensityMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">DialogTopicDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topic_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate user’s topic labels in dialog. Input from
+history_key, query_key and response_key. Output lists of
+labels and analysis for queries in the dialog.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请判断用户和LLM多轮对话中用户所讨论的话题。\n要求：\n-</span> <span class="pre">针对用户的每个query，需要先进行分析，然后列出用户正在讨论的话题，下面是一个样例，请模仿样例格式输出。\n用户：你好，今天我们来聊聊秦始皇吧。\n话题分析：用户提到秦始皇，这是中国历史上第一位皇帝。\n话题类别：历史\nLLM：当然可以，秦始皇是中国历史上第一个统一全国的皇帝，他在公元前221年建立了秦朝，并采取了一系列重要的改革措施，如统一文字、度量衡和货币等。\n用户：秦始皇修建的长城和现在的长城有什么区别？\n话题分析：用户提到秦始皇修建的长城，并将其与现代长城进行比较，涉及建筑历史和地理位置。\n话题类别：历史LLM：秦始皇时期修建的长城主要是为了抵御北方游牧民族的入侵，它的规模和修建技术相对较为简陋。现代人所看到的长城大部分是明朝时期修建和扩建的，明长城不仅规模更大、结构更坚固，而且保存得比较完好。\n用户：有意思，那么长城的具体位置在哪些省份呢？\n话题分析：用户询问长城的具体位置，涉及到地理知识。\n话题类别：地理\nLLM：长城横跨中国北方多个省份，主要包括河北、山西、内蒙古、宁夏、陕西、甘肃和北京等。每一段长城都建在关键的战略位置，以便最大限度地发挥其防御作用。\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QUERY_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'用户：{query}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_RESPONSE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'LLM：{response}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_CANDIDATES_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'备选话题类别：[{candidate_str}]'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题分析：{analysis}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题类别：{labels}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ANALYSIS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题分析：(.*?)\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_LABELS_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'话题类别：(.*?)($|\n)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topic_candidates</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_round</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dialog_topic_labels_analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">candidate_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">analysis_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">labels_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>topic_candidates</strong> – The output topic candidates. Use
+open-domain topic labels if it is None.</p></li>
+<li><p><strong>max_round</strong> – The max num of round in the dialog to build the
+prompt.</p></li>
+<li><p><strong>labels_key</strong> – The key name in the meta field to store the
+output labels. It is ‘dialog_topic_labels’ in default.</p></li>
+<li><p><strong>analysis_key</strong> – The key name in the meta field to store the
+corresponding analysis. It is ‘dialog_topic_labels_analysis’
+in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>query_template</strong> – Template for query part to build the input
+prompt.</p></li>
+<li><p><strong>response_template</strong> – Template for response part to build the
+input prompt.</p></li>
+<li><p><strong>candidate_template</strong> – Template for topic candidates to
+build the input prompt.</p></li>
+<li><p><strong>analysis_template</strong> – Template for analysis part to build the
+input prompt.</p></li>
+<li><p><strong>labels_template</strong> – Template for labels part to build the
+input prompt.</p></li>
+<li><p><strong>analysis_pattern</strong> – Pattern to parse the return topic
+analysis.</p></li>
+<li><p><strong>labels_pattern</strong> – Pattern to parse the return topic
+labels.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">history</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.DialogTopicDetectionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/dialog_topic_detection_mapper.html#DialogTopicDetectionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.DialogTopicDetectionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExpandMacroMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExpandMacroMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExpandMacroMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to expand macro definitions in the document body of Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExpandMacroMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExpandMacroMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExpandMacroMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExpandMacroMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityAttributeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attributes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_descriptions'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_support_texts'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract attributes for given entities from the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，从文本中总结{entity}的{attribute}，并且从原文摘录最能说明该{attribute}的代表性示例。\n要求：\n-</span> <span class="pre">摘录的示例应该简短。\n-</span> <span class="pre">遵循如下的回复格式：\n#</span> <span class="pre">{entity}\n##</span> <span class="pre">{attribute}：\n...\n###</span> <span class="pre">代表性示例摘录1：\n```\n...\n```\n###</span> <span class="pre">代表性示例摘录2：\n```\n...\n```\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ATTR_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\s*{attribute}：\\s*(.*?)(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_DEMON_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\#\\s*代表性示例摘录(\\d+)：\\s*```\\s*(.*?)```\\s*(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main_entities'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attributes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_descriptions'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'attribute_support_texts'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param query_entities: Entity list to be queried.
+:param query_attributes: Attribute list to be queried.
+:param entity_key: The key name in the meta field to store the</p>
+<blockquote>
+<div><p>given main entity for attribute extraction. It’s “entity” in
+default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>entity_attribute_key</strong> – The key name in the meta field to
+store the given attribute to be extracted. It’s “attribute”
+in default.</p></li>
+<li><p><strong>attribute_desc_key</strong> – The key name in the meta field to store
+the extracted attribute description. It’s
+“attribute_description” in default.</p></li>
+<li><p><strong>support_text_key</strong> – The key name in the meta field to store
+the attribute support text extracted from the raw text.
+It’s “support_text” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the
+task. Need to be specified by given entity and attribute.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>attr_pattern_template</strong> – Pattern for parsing the attribute from
+output. Need to be specified by given attribute.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Param<span class="colon">:</span></dt>
+<dd class="field-even"><p>demo_pattern: Pattern for parsing the demonstraction from
+output to support the attribute.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityRelationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract entities and relations in the text for knowledge graph.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">all</span> <span class="pre">entities.</span> <span class="pre">For</span> <span class="pre">each</span> <span class="pre">identified</span> <span class="pre">entity,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">entity_name:</span> <span class="pre">Name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\n-</span> <span class="pre">entity_type:</span> <span class="pre">One</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">types:</span> <span class="pre">[{entity_types}]\n-</span> <span class="pre">entity_description:</span> <span class="pre">Comprehensive</span> <span class="pre">description</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\'s</span> <span class="pre">attributes</span> <span class="pre">and</span> <span class="pre">activities\nFormat</span> <span class="pre">each</span> <span class="pre">entity</span> <span class="pre">as</span> <span class="pre">(&quot;entity&quot;{tuple_delimiter}&lt;entity_name&gt;{tuple_delimiter}&lt;entity_type&gt;{tuple_delimiter}&lt;entity_description&gt;\n\n2.</span> <span class="pre">From</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">pairs</span> <span class="pre">of</span> <span class="pre">(source_entity,</span> <span class="pre">target_entity)</span> <span class="pre">that</span> <span class="pre">are</span> <span class="pre">*clearly</span> <span class="pre">related*</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other.\nFor</span> <span class="pre">each</span> <span class="pre">pair</span> <span class="pre">of</span> <span class="pre">related</span> <span class="pre">entities,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">source_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">target_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">relationship_description:</span> <span class="pre">explanation</span> <span class="pre">as</span> <span class="pre">to</span> <span class="pre">why</span> <span class="pre">you</span> <span class="pre">think</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity</span> <span class="pre">are</span> <span class="pre">related</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other\n-</span> <span class="pre">relationship_strength:</span> <span class="pre">a</span> <span class="pre">numeric</span> <span class="pre">score</span> <span class="pre">indicating</span> <span class="pre">strength</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship</span> <span class="pre">between</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">target</span> <span class="pre">entity\n-</span> <span class="pre">relationship_keywords:</span> <span class="pre">one</span> <span class="pre">or</span> <span class="pre">more</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">nature</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship,</span> <span class="pre">focusing</span> <span class="pre">on</span> <span class="pre">concepts</span> <span class="pre">or</span> <span class="pre">themes</span> <span class="pre">rather</span> <span class="pre">than</span> <span class="pre">specific</span> <span class="pre">details\nFormat</span> <span class="pre">each</span> <span class="pre">relationship</span> <span class="pre">as</span> <span class="pre">(&quot;relationship&quot;{tuple_delimiter}&lt;source_entity&gt;{tuple_delimiter}&lt;target_entity&gt;{tuple_delimiter}&lt;relationship_description&gt;{tuple_delimiter}&lt;relationship_keywords&gt;{tuple_delimiter}&lt;relationship_strength&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text</span> <span class="pre">as</span> <span class="pre">a</span> <span class="pre">single</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">all</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">and</span> <span class="pre">relationships</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">steps</span> <span class="pre">1</span> <span class="pre">and</span> <span class="pre">2.</span> <span class="pre">Use</span> <span class="pre">**{record_delimiter}**</span> <span class="pre">as</span> <span class="pre">the</span> <span class="pre">list</span> <span class="pre">delimiter.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">technology,</span> <span class="pre">mission,</span> <span class="pre">organization,</span> <span class="pre">location]\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">character</span> <span class="pre">who</span> <span class="pre">experiences</span> <span class="pre">frustration</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">observant</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">is</span> <span class="pre">portrayed</span> <span class="pre">with</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">shows</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">a</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">a</span> <span class="pre">change</span> <span class="pre">in</span> <span class="pre">perspective.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Jordan</span> <span class="pre">shares</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">and</span> <span class="pre">has</span> <span class="pre">a</span> <span class="pre">significant</span> <span class="pre">interaction</span> <span class="pre">with</span> <span class="pre">Taylor</span> <span class="pre">regarding</span> <span class="pre">a</span> <span class="pre">device.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Cruz</span> <span class="pre">is</span> <span class="pre">associated</span> <span class="pre">with</span> <span class="pre">a</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order,</span> <span class="pre">influencing</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;technology&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device</span> <span class="pre">is</span> <span class="pre">central</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">story,</span> <span class="pre">with</span> <span class="pre">potential</span> <span class="pre">game-changing</span> <span class="pre">implications,</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">revered</span> <span class="pre">by</span> <span class="pre">Taylor.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">affected</span> <span class="pre">by</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">observes</span> <span class="pre">changes</span> <span class="pre">in</span> <span class="pre">Taylor\'s</span> <span class="pre">attitude</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">perspective</span> <span class="pre">shift&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">share</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery,</span> <span class="pre">which</span> <span class="pre">contrasts</span> <span class="pre">with</span> <span class="pre">Cruz\'s</span> <span class="pre">vision.&quot;{tuple_delimiter}&quot;shared</span> <span class="pre">goals,</span> <span class="pre">rebellion&quot;{tuple_delimiter}6){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">interact</span> <span class="pre">directly</span> <span class="pre">regarding</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">leading</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">mutual</span> <span class="pre">respect</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.&quot;{tuple_delimiter}&quot;conflict</span> <span class="pre">resolution,</span> <span class="pre">mutual</span> <span class="pre">respect&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;Jordan\'s</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">is</span> <span class="pre">in</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.&quot;{tuple_delimiter}&quot;ideological</span> <span class="pre">conflict,</span> <span class="pre">rebellion&quot;{tuple_delimiter}5){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">shows</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">its</span> <span class="pre">importance</span> <span class="pre">and</span> <span class="pre">potential</span> <span class="pre">impact.&quot;{tuple_delimiter}&quot;reverence,</span> <span class="pre">technological</span> <span class="pre">significance&quot;{tuple_delimiter}9){record_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nEntity_types:</span> <span class="pre">[人物,</span> <span class="pre">技术,</span> <span class="pre">任务,</span> <span class="pre">组织,</span> <span class="pre">地点]\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;地点&quot;{tuple_delimiter}&quot;华盛顿是正在接收通讯的地方，表明其在决策过程中的重要性。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;任务&quot;{tuple_delimiter}&quot;杜尔塞行动被描述为一项已演变为互动和准备的任务，显示出目标和活动的重大转变。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;组织&quot;{tuple_delimiter}&quot;团队被描绘成一群从被动观察者转变为积极参与者的人，展示了他们角色的动态变化。&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;团队收到来自华盛顿的通讯，这影响了他们的决策过程。&quot;{tuple_delimiter}&quot;决策、外部影响&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;团队直接参与杜尔塞行动，执行其演变后的目标和活动。&quot;{tuple_delimiter}&quot;任务演变、积极参与&quot;{tuple_delimiter}9){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">member</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">working</span> <span class="pre">on</span> <span class="pre">communicating</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">showing</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">leader</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">attempting</span> <span class="pre">first</span> <span class="pre">contact</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">acknowledging</span> <span class="pre">the</span> <span class="pre">significance</span> <span class="pre">of</span> <span class="pre">their</span> <span class="pre">task.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Control</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">ability</span> <span class="pre">to</span> <span class="pre">manage</span> <span class="pre">or</span> <span class="pre">govern,</span> <span class="pre">which</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Intelligence</span> <span class="pre">here</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">entity</span> <span class="pre">capable</span> <span class="pre">of</span> <span class="pre">writing</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules</span> <span class="pre">and</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">potential</span> <span class="pre">initial</span> <span class="pre">communication</span> <span class="pre">between</span> <span class="pre">humanity</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">collective</span> <span class="pre">action</span> <span class="pre">taken</span> <span class="pre">by</span> <span class="pre">Alex\'s</span> <span class="pre">team</span> <span class="pre">in</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">directly</span> <span class="pre">involved</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">process</span> <span class="pre">of</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;communication,</span> <span class="pre">learning</span> <span class="pre">process&quot;{tuple_delimiter}9){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">leads</span> <span class="pre">the</span> <span class="pre">team</span> <span class="pre">that</span> <span class="pre">might</span> <span class="pre">be</span> <span class="pre">making</span> <span class="pre">the</span> <span class="pre">First</span> <span class="pre">Contact</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;leadership,</span> <span class="pre">exploration&quot;{tuple_delimiter}10){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">his</span> <span class="pre">team</span> <span class="pre">are</span> <span class="pre">the</span> <span class="pre">key</span> <span class="pre">figures</span> <span class="pre">in</span> <span class="pre">Humanity\'s</span> <span class="pre">Response</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;collective</span> <span class="pre">action,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;The</span> <span class="pre">concept</span> <span class="pre">of</span> <span class="pre">Control</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">the</span> <span class="pre">Intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">autonomy&quot;{tuple_delimiter}7){record_delimiter}\n#############################\n-Real</span> <span class="pre">Data-\n######################\nEntity_types:</span> <span class="pre">[{entity_types}]\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_CONTINUE_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'MANY</span> <span class="pre">entities</span> <span class="pre">were</span> <span class="pre">missed</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">last</span> <span class="pre">extraction.</span>&#160; <span class="pre">Add</span> <span class="pre">them</span> <span class="pre">below</span> <span class="pre">using</span> <span class="pre">the</span> <span class="pre">same</span> <span class="pre">format:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_IF_LOOP_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'It</span> <span class="pre">appears</span> <span class="pre">some</span> <span class="pre">entities</span> <span class="pre">may</span> <span class="pre">have</span> <span class="pre">still</span> <span class="pre">been</span> <span class="pre">missed.</span>&#160; <span class="pre">Answer</span> <span class="pre">YES</span> <span class="pre">|</span> <span class="pre">NO</span> <span class="pre">if</span> <span class="pre">there</span> <span class="pre">are</span> <span class="pre">still</span> <span class="pre">entities</span> <span class="pre">that</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">added.\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_TYPES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['organization',</span> <span class="pre">'person',</span> <span class="pre">'geo',</span> <span class="pre">'event']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_TUPLE_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_RECORD_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'##'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;entity&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_RELATION_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;relationship&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'entity'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity_types: Pre-defined entity types for knowledge graph.
+:param entity_key: The key name to store the entities in the meta</p>
+<blockquote>
+<div><p>field. It’s “entity” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relation_key</strong> – The field name to store the relations between
+entities. It’s “relation” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>tuple_delimiter</strong> – Delimiter to separate items in outputs.</p></li>
+<li><p><strong>record_delimiter</strong> – Delimiter to separate records in outputs.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>max_gleaning</strong> – the extra max num to call LLM to glean entities
+and relations.</p></li>
+<li><p><strong>continue_prompt</strong> – the prompt for gleaning entities and
+relations.</p></li>
+<li><p><strong>if_loop_prompt</strong> – the prompt to determine whether to stop
+gleaning.</p></li>
+<li><p><strong>entity_pattern</strong> – Regular expression for parsing entity record.</p></li>
+<li><p><strong>relation_pattern</strong> – Regular expression for parsing relation
+record.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message">
+<span class="sig-name descname"><span class="pre">add_message</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">role</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">content</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.add_message"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction">
+<span class="sig-name descname"><span class="pre">light_rag_extraction</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.light_rag_extraction"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEventMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relevant_characters'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract events and relevant characters in the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，对文本的情节进行分点总结，并抽取与情节相关的人物。\n要求：\n-</span> <span class="pre">尽量不要遗漏内容，不要添加文本中没有的情节，符合原文事实\n-</span> <span class="pre">联系上下文说明前因后果，但仍然需要符合事实\n-</span> <span class="pre">不要包含主观看法\n-</span> <span class="pre">注意要尽可能保留文本的专有名词\n-</span> <span class="pre">注意相关人物需要在对应情节中出现\n-</span> <span class="pre">只抽取情节中的主要人物，不要遗漏情节的主要人物\n-</span> <span class="pre">总结格式如下：\n###</span> <span class="pre">情节1：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，人物3，...\n###</span> <span class="pre">情节2：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，...\n###</span> <span class="pre">情节3：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，...\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*情节(\\d+)：\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*情节描述\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*相关人物\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'relevant_characters'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param event_desc_key: The key name to store the event descriptions</p>
+<blockquote>
+<div><p>in the meta field. It’s “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relevant_char_key</strong> – The field name to store the relevant
+characters to the events in the meta field. It’s
+“relevant_characters” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractKeywordMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'keyword'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate keywords for the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">main</span> <span class="pre">concepts,</span> <span class="pre">themes,</span> <span class="pre">or</span> <span class="pre">topics</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entire</span> <span class="pre">text.</span> <span class="pre">These</span> <span class="pre">should</span> <span class="pre">capture</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">ideas</span> <span class="pre">present</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">document.\nFormat</span> <span class="pre">the</span> <span class="pre">content-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">as</span> <span class="pre">(&quot;content_keywords&quot;</span> <span class="pre">&lt;high_level_keywords&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">ideological</span> <span class="pre">conflict,</span> <span class="pre">discovery,</span> <span class="pre">rebellion&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;任务演变,</span> <span class="pre">决策制定,</span> <span class="pre">积极参与,</span> <span class="pre">宇宙意义&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;first</span> <span class="pre">contact,</span> <span class="pre">control,</span> <span class="pre">communication,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;){completion_delimiter}\n-Real</span> <span class="pre">Data-\n######################\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;content_keywords&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'keyword'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param keyword_key: The key name to store the keywords in the meta</p>
+<blockquote>
+<div><p>field. It’s “keyword” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing keywords.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractNicknameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'nickname'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract nickname relationship in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定你一段文本，你的任务是将人物之间的称呼方式（昵称）提取出来。\n要求：\n-</span> <span class="pre">需要给出说话人对被称呼人的称呼，不要搞反了。\n-</span> <span class="pre">相同的说话人和被称呼人最多给出一个最常用的称呼。\n-</span> <span class="pre">请不要输出互相没有昵称的称呼方式。\n-</span> <span class="pre">输出格式如下：\n```\n###</span> <span class="pre">称呼方式1\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式2\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式3\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n...\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*称呼方式(\\d+)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*说话人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*被称呼人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*(.*?)对(.*?)的昵称\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)</span> <span class="pre">#</span> <span class="pre">for</span> <span class="pre">double</span> <span class="pre">check\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'nickname'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param nickname_key: The key name to store the nickname</p>
+<blockquote>
+<div><p>relationship in the meta field. It’s “nickname” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractSupportTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'support_text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract support sub text for a summary.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你将扮演一个文本摘录助手的角色。你的主要任务是基于给定的文章（称为“原文”）以及对原文某个部分的简短描述或总结（称为“总结”），准确地识别并提取出与该总结相对应的原文片段。\n要求：\n-</span> <span class="pre">你需要尽可能精确地匹配到最符合总结内容的那部分内容\n-</span> <span class="pre">如果存在多个可能的答案，请选择最贴近总结意思的那个\n-</span> <span class="pre">下面是一个例子帮助理解这一过程：\n###</span> <span class="pre">原文：\n《红楼梦》是中国古典小说四大名著之一，由清代作家曹雪芹创作。它讲述了贾宝玉、林黛玉等人的爱情故事及四大家族的兴衰历程。书中通过复杂的人物关系展现了封建社会的各种矛盾冲突。其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。此外，《红楼梦》还以其精美的诗词闻名，这些诗词不仅增添了文学色彩，也深刻反映了人物的性格特点和命运走向。\n\n###</span> <span class="pre">总结：\n描述了书中的两个女性角色之间围绕权力展开的竞争。\n\n###</span> <span class="pre">原文摘录：\n其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'###</span> <span class="pre">原文：\n{text}\n\n###</span> <span class="pre">总结：\n{summary}\n\n###</span> <span class="pre">原文摘录：\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'event_description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'support_text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param summary_key: The key name to store the input summary in the</p>
+<blockquote>
+<div><p>meta field. It’s “event_description” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>support_text_key</strong> – The key name to store the output
+support text for the summary in the meta field. It’s
+“support_text” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.FixUnicodeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.FixUnicodeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to fix unicode errors in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.FixUnicodeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.FixUnicodeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>normalization</strong> – the specified form of Unicode
+normalization mode, which can be one of
+[‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’], default ‘NFC’.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.FixUnicodeMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.FixUnicodeMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromExamplesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from examples.
+You should configure an empty dataset in your yaml config file:
+<a href="#id5"><span class="problematic" id="id6">``</span></a>`
+generated_dataset_config:</p>
+<blockquote>
+<div><p>type: ‘EmptyFormatter’  # use <cite>RayEmptyFormatter</cite> when enable ray
+length: ${The number of generated samples}
+feature_keys: ${text key}</p>
+</div></blockquote>
+<p><a href="#id7"><span class="problematic" id="id8">``</span></a>`
+The number of samples generated is determined by
+the length of the empty dataset.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请你仔细观察多个示例数据的输入和输出，按照你的理解，总结出相应规矩，然后写出一个新的【问题】和【回答】。注意，新生成的【问题】和【回答】需要满足如下要求：\n1.</span> <span class="pre">生成的【问题】和【回答】不能与输入的【问题】和【回答】一致，但是需要保持格式相同。\n2.</span> <span class="pre">生成的【问题】不一定要局限于输入【问题】的话题或领域，生成的【回答】需要正确回答生成的【问题】。\n3.</span> <span class="pre">提供的【问题】和【回答】可能是多轮对话，生成的【问题】和【回答】也可以是多轮，但是需要保持格式相同。\n4.</span> <span class="pre">生成的【问题】和【回答】必须成对出现，而且【问题】需要在【回答】之前。\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_EXAMPLE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n如下是一条示例数据：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】(.*?)【回答】(.*?)(?=【问题】|$)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>seed_file</strong> – Path to the seed file in chatml format.</p></li>
+<li><p><strong>example_num</strong> – The number of selected examples.
+Randomly select N examples from “seed_file” and
+put them into prompt as QA examples.</p></li>
+<li><p><strong>similarity_threshold</strong> – The similarity score threshold
+between the generated samples and the seed examples.
+Range from 0 to 1. Samples with similarity score less than
+this threshold will be kept.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input prompt. It must
+include one placeholder ‘{}’, which will be replaced by
+<cite>example_num</cite> formatted examples defined by <cite>example_template</cite>.</p></li>
+<li><p><strong>example_template</strong> – Template for formatting one QA example. It
+must include one placeholder ‘{}’, which will be replaced by one
+formatted qa_pair.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting a single QA pair
+within each example. Must include two placeholders ‘{}’ for the
+question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract questions
+and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">qa_examples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from text.
+Recommended model list: [</p>
+<blockquote>
+<div><p>‘alibaba-pai/pai-llama3-8b-doc2qa’,
+‘alibaba-pai/pai-baichuan2-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-4b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-1b8-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-0b5-doc2qa’</p>
+</div></blockquote>
+<p>]
+These recommended models are all trained with Chinese data
+and are suitable for Chinese.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>max_num</strong> – The max num of returned QA sample for each text.
+Not limit if it is None.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract
+questions and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation,
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+<p>The default data format parsed by this interface is as follows:
+Model Input:</p>
+<blockquote>
+<div><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）</p>
+</div></blockquote>
+<dl class="simple">
+<dt>Model Output:</dt><dd><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）
+Human: 请问蒙古国的首都是哪里？
+Assistant: 你好，根据提供的信息，蒙古国的首都是乌兰巴托（Ulaanbaatar）。
+Human: 冰岛的首都是哪里呢？
+Assistant: 冰岛的首都是雷克雅未克（Reykjavik）。
+…</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>p</strong> – Probability of the image being blured.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningFromGPT4VMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose texts are generated based on
+gpt-4-visison and the image.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – mode of text generated from images, can be one of
+[‘resoning’, ‘description’, ‘conversation’, ‘custom’]</p></li>
+<li><p><strong>api_key</strong> – the API key to authenticate the request.</p></li>
+<li><p><strong>max_token</strong> – the maximum number of tokens to generate.
+Default is 500.</p></li>
+<li><p><strong>temperature</strong> – controls the randomness of the output (range
+from 0 to 1). Default is 0.</p></li>
+<li><p><strong>system_prompt</strong> – a string prompt used to set the context of a
+conversation and provide global guidance or rules for the
+gpt4-vision so that it can  generate responses in the expected way.
+If <cite>mode</cite> set to <cite>custom</cite>, the parameter will be used.</p></li>
+<li><p><strong>user_prompt</strong> – a string prompt to guide the generation of
+gpt4-vision for each samples. It’s “” in default, which means no
+prompt provided.</p></li>
+<li><p><strong>uers_prompt_key</strong> – the key name of fields in samples to store
+prompts for each sample. It’s used for set different prompts for
+different samples. If it’s none, use prompt in parameter “prompt”.
+It’s None in default.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated text in the
+final datasets and the original text will be removed. It’s True
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+another model and the figure.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each image</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of blip2 model
+for all samples globally. It’s None in default, which means no
+prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageDiffusionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageDiffusionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageDiffusionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate image by diffusion model</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageDiffusionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageDiffusionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_diffusion</strong> – diffusion model name on huggingface to generate
+the image.</p></li>
+<li><p><strong>torch_dtype</strong> – the floating point type used to load the diffusion
+model. Can be one of [‘fp32’, ‘fp16’, ‘bf16’]</p></li>
+<li><p><strong>revision</strong> – The specific model version to use. It can be a
+branch name, a tag name, a commit id, or any identifier allowed
+by Git.</p></li>
+<li><p><strong>strength</strong> – Indicates extent to transform the reference image.
+Must be between 0 and 1. image is used as a starting point and
+more noise is added the higher the strength. The number of
+denoising steps depends on the amount of noise initially added.
+When strength is 1, added noise is maximum and the denoising
+process runs for the full number of iterations specified in
+num_inference_steps. A value of 1 essentially ignores image.</p></li>
+<li><p><strong>guidance_scale</strong> – A higher guidance scale value encourages the
+model to generate images closely linked to the text prompt at the
+expense of lower image quality. Guidance scale is enabled when
+guidance_scale &gt; 1.</p></li>
+<li><p><strong>aug_num</strong> – The image number to be produced by stable-diffusion
+model.</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>caption_key</strong> – the key name of fields in samples to store captions
+for each images. It can be a string if there is only one image in
+each sample. Otherwise, it should be a list. If it’s none,
+ImageDiffusionMapper will produce captions for each images.</p></li>
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption if
+caption_key is None.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageDiffusionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote aug_num as $M$.
+the number of total samples after generation is  $(1+M)Nb$.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageTaggingMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageTaggingMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'image_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageTaggingMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate image tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageTaggingMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'image_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageTaggingMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param tag_field_name: the field name to store the tags. It’s</p>
+<blockquote>
+<div><p>“image_tags” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageTaggingMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageTaggingMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpaugEnMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">NlpaugEnMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpaugEnMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in English based on nlpaug library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpaugEnMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpaugEnMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>delete_random_word</strong> – whether to open the augmentation method of
+deleting random words from the original texts. e.g. “I love LLM”
+–&gt; “I LLM”</p></li>
+<li><p><strong>swap_random_word</strong> – whether to open the augmentation method of
+swapping random contiguous words in the original texts. e.g. “I
+love LLM” –&gt; “Love I LLM”</p></li>
+<li><p><strong>spelling_error_word</strong> – whether to open the augmentation method of
+simulating the spelling error for words in the original texts. e.g.
+“I love LLM” –&gt; “Ai love LLM”</p></li>
+<li><p><strong>split_random_word</strong> – whether to open the augmentation method of
+splitting words randomly with whitespaces in the original texts.
+e.g. “I love LLM” –&gt; “I love LL M”</p></li>
+<li><p><strong>keyboard_error_char</strong> – whether to open the augmentation method of
+simulating the keyboard error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I ;ov4 LLM”</p></li>
+<li><p><strong>ocr_error_char</strong> – whether to open the augmentation method of
+simulating the OCR error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I 10ve LLM”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g. “I love
+LLM” –&gt; “I oe LLM”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts.
+e.g. “I love LLM” –&gt; “I ovle LLM”</p></li>
+<li><p><strong>insert_random_char</strong> – whether to open the augmentation method of
+inserting random characters into the original texts. e.g. “I love
+LLM” –&gt; “I ^lKove LLM”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpaugEnMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpaugEnMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpcdaZhMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">NlpcdaZhMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpcdaZhMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in Chinese based on nlpcda library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpcdaZhMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpcdaZhMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly. <strong>Notice</strong>: some augmentation method might not work for
+some special texts, so there might be no augmented texts generated.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>replace_similar_word</strong> – whether to open the augmentation method of
+replacing random words with their similar words in the original
+texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这边一共有5种不同的数据增强方法”</p></li>
+<li><p><strong>replace_homophone_char</strong> – whether to open the augmentation method
+of replacing random characters with their homophones in the
+original texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的濖据增强方法”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据增强”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据强增方法”</p></li>
+<li><p><strong>replace_equivalent_num</strong> – whether to open the augmentation method
+of replacing random numbers with their equivalent representations
+in the original texts. <strong>Notice</strong>: Only for numbers for now. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有伍种不同的数据增强方法”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpcdaZhMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to optimize question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化输入的问答对，使【问题】和【回答】都更加详细、准确。必须按照以下标记格式，直接输出优化后的问答对：\n【问题】\n优化后的问题\n【回答】\n优化后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'以下是原始问答对：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugging Face model ID.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the optimization task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input for the model.
+Please make sure the template contains one placeholder ‘{}’, which
+corresponds to the question and answer pair generated by
+param <cite>qa_pair_template</cite>.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting the question and
+answer pair. Please make sure the template contains two
+‘{}’ to format question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract question
+and answer from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use VLLM for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation (e.g.,
+{‘temperature’: 0.9, ‘top_p’: 0.95}).</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize query in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'优化问答对中的【问题】，将其更加详细具体，但仍可以由原答案回答。只输出优化后的【问题】，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize response in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化问答对中的回答，将其更加详细具体，但仍可以回答原问题。只输出优化后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PairPreferenceMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to construct paired preference samples.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你的任务是根据参考信息修改问答对中的回答，在语言风格、事实性、人物身份、立场等任一方面与原回答相反。必须按照以下标记格式输出，不要输出其他多余内容。\n【回答】\n生成的新回答\n【原因】\n生成该回答的原因'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{reference}\n\n以下是原始问答对：\n【问题】\n{query}\n【回答】\n{response}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【回答】\\s*(.*?)\\s*【原因】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input. It must
+contain placeholders ‘{query}’ and ‘{reponse}’, and can optionally
+include ‘{reference}’.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>rejected_key</strong> – The field name in the sample to store the
+generated rejected response. Defaults to ‘rejected_response’.</p></li>
+<li><p><strong>reason_key</strong> – The field name in the sample to store the reason for
+generating the response. Defaults to ‘reason’.</p></li>
+<li><p><strong>try_num</strong> – The number of retries for the API call in case of
+response parsing failure. Defaults to 3.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PunctuationNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PunctuationNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PunctuationNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize unicode punctuations to English punctuations in text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PythonFileMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonFileMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python function defined in a file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonFileMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>file_path</strong> – The path to the Python file containing the function
+to be executed.</p></li>
+<li><p><strong>function_name</strong> – The name of the function defined in the file
+to be executed.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonFileMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonFileMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided samples.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PythonLambdaMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonLambdaMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python lambda function on data samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonLambdaMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lambda_str</strong> – A string representation of the lambda function to be
+executed on data samples. If empty, the identity function is used.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonLambdaMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonLambdaMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QuerySentimentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">QuerySentimentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QuerySentimentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s sentiment label (‘negative’, ‘neutral’ and
+‘positive’) in query. Input from query_key.
+Output label and corresponding score for the query, which is
+store in ‘query_sentiment_label’ and
+‘query_sentiment_label_score’ in Data-Juicer meta field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QuerySentimentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_sentiment_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QuerySentimentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict sentiment label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_sentiment_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_sentiment_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QuerySentimentDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_sentiment_detection_mapper.html#QuerySentimentDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QuerySentimentDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryIntentDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">QueryIntentDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'bespin-global/klue-roberta-small-3i4k-intent-classification'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryIntentDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s Intent label in query. Input from query_key.
+Output intent label and corresponding score for the query.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryIntentDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'bespin-global/klue-roberta-small-3i4k-intent-classification'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_intent_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryIntentDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict intent label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_intent_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_intent_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryIntentDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_intent_detection_mapper.html#QueryIntentDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryIntentDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryTopicDetectionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">QueryTopicDetectionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dstefa/roberta-base_topic_classification_nyt_news'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryTopicDetectionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to predict user’s topic label in query. Input from query_key.
+Output topic label and corresponding score for the query, which is
+store in ‘query_topic_label’ and ‘query_topic_label_score’ in
+Data-Juicer meta field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryTopicDetectionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'dstefa/roberta-base_topic_classification_nyt_news'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Helsinki-NLP/opus-mt-zh-en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">zh_to_en_model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">label_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'query_topic_label_score'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryTopicDetectionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID to predict topic label.</p></li>
+<li><p><strong>zh_to_en_hf_model</strong> – Translation model from Chinese to English.
+If not None, translate the query from Chinese to English.</p></li>
+<li><p><strong>model_params</strong> – model param for hf_model.</p></li>
+<li><p><strong>zh_to_en_model_params</strong> – model param for zh_to_hf_model.</p></li>
+<li><p><strong>label_key</strong> – The key name in the meta field to store the
+output label. It is ‘query_topic_label’ in default.</p></li>
+<li><p><strong>score_key</strong> – The key name in the meta field to store the
+corresponding label score. It is ‘query_topic_label_score’
+in default.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.QueryTopicDetectionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/query_topic_detection_mapper.html#QueryTopicDetectionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.QueryTopicDetectionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RelationIdentityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'role_relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>identify relation between two entity in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定关于{entity1}和{entity2}的文本信息。判断{entity1}和{entity2}之间的关系。\n要求：\n-</span> <span class="pre">关系用一个或多个词语表示，必要时可以加一个形容词来描述这段关系\n-</span> <span class="pre">输出关系时不要参杂任何标点符号\n-</span> <span class="pre">需要你进行合理的推理才能得出结论\n-</span> <span class="pre">如果两个人物身份是同一个人，输出关系为：另一个身份\n-</span> <span class="pre">输出格式为：\n分析推理：...\n所以{entity2}是{entity1}的：...\n-</span> <span class="pre">注意输出的是{entity2}是{entity1}的什么关系，而不是{entity1}是{entity2}的什么关系'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'关于{entity1}和{entity2}的文本信息：\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*分析推理：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*所以{entity2}是{entity1}的：\\s*(.*?)\\Z\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'role_relation'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param source_entity: The source entity of the relation to be</p>
+<blockquote>
+<div><p>identified.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>target_entity</strong> – The target entity of the relation to be
+identified.</p></li>
+<li><p><strong>output_key</strong> – The output key in the meta field in the
+samples. It is ‘role_relation’ in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern_template</strong> – Regular expression template for
+parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveBibliographyMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveBibliographyMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveBibliographyMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove bibliography at the end of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveBibliographyMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveCommentsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveCommentsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveCommentsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove comments in different kinds of documents.</p>
+<p>Only support ‘tex’ for now.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveCommentsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveCommentsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>doc_type</strong> – Type of document to remove comments.</p></li>
+<li><p><strong>inline</strong> – Whether to remove inline comments.</p></li>
+<li><p><strong>multiline</strong> – Whether to remove multiline comments.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveCommentsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveCommentsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveHeaderMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveHeaderMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveHeaderMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove headers at the beginning of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveHeaderMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveHeaderMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>drop_no_head</strong> – whether to drop sample texts without
+headers.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveHeaderMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveHeaderMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveLongWordsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove long words within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveLongWordsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min mapper word length in this op, words
+will be filtered if their length is below this parameter.</p></li>
+<li><p><strong>max_len</strong> – The max mapper word length in this op, words
+will be filtered if their length exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word">
+<span class="sig-name descname"><span class="pre">should_keep_long_word</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.should_keep_long_word"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveNonChineseCharacterlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove non chinese Character in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_alphabet</strong> – whether to keep alphabet</p></li>
+<li><p><strong>keep_number</strong> – whether to keep number</p></li>
+<li><p><strong>keep_punc</strong> – whether to keep punctuation</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveRepeatSentencesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveRepeatSentencesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveRepeatSentencesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove repeat sentences in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_special_character</strong> – Whether to ignore special
+characters when judging repeated sentences. Special characters
+are all characters except Chinese characters, letters and
+numbers.</p></li>
+<li><p><strong>min_repeat_sentence_length</strong> – Sentences shorter than this
+length will not be deduplicated. If ignore_special_character is
+set to True, then special characters are not included in this
+length.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveSpecificCharsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveSpecificCharsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean specific chars in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>chars_to_remove</strong> – a list or a string including all
+characters that need to be removed from text.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveTableTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveTableTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveTableTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove table texts from text samples.</p>
+<p>Regular expression is used to remove tables in the range of column
+number of tables.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveTableTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveTableTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_col</strong> – The min number of columns of table to remove.</p></li>
+<li><p><strong>max_col</strong> – The max number of columns of table to remove.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveTableTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove words with incorrect substrings.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>substrings</strong> – The incorrect substrings in words.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
+<span class="sig-name descname"><span class="pre">should_keep_word_with_incorrect_substrings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ReplaceContentMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ReplaceContentMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ReplaceContentMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to replace all content in the text that matches
+a specific regular expression pattern with a designated
+replacement string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ReplaceContentMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ReplaceContentMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern(s) to search for within text</p></li>
+<li><p><strong>repl</strong> – replacement string(s), default is empty string</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.ReplaceContentMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ReplaceContentMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.SentenceSplitMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.SentenceSplitMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split text samples to sentences.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.SentenceSplitMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.SentenceSplitMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – split sentence of text in which language.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.SentenceSplitMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.SentenceSplitMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">TextChunkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Split input text to chunks.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>max_len</strong> – Split text into multi texts with this max len if not
+None.</p></li>
+<li><p><strong>split_pattern</strong> – Make sure split in this pattern if it is not None
+and force cut if the length exceeds max_len.</p></li>
+<li><p><strong>overlap_len</strong> – Overlap length of the split texts if not split in
+the split pattern.</p></li>
+<li><p><strong>tokenizer</strong> – The tokenizer name of Hugging Face tokenizers.
+The text length will be calculate as the token num if it is offerd.
+Otherwise, the text length equals to string length. Support
+tiktoken tokenizer (such as gpt-4o), dashscope tokenizer (such as
+qwen2.5-72b-instruct) and huggingface tokenizer.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+<dt class="field-even">Trust_remote_code<span class="colon">:</span></dt>
+<dd class="field-even"><p>for loading huggingface model</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper.recursively_chunk">
+<span class="sig-name descname"><span class="pre">recursively_chunk</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.recursively_chunk"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper.get_text_chunks">
+<span class="sig-name descname"><span class="pre">get_text_chunks</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.get_text_chunks"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to caption a video according to its audio streams based on
+Qwen-Audio model.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only captioned sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+an image-to-text model and sampled video frames. Captions from different
+frames will be concatenated to a single string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of image-to-text
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromSummarizerMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video captions by summarizing several kinds of generated
+texts (captions from video/audio/frames, tags from audio/frames, …)</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_summarizer</strong> – the summarizer model used to summarize texts
+generated by other methods.</p></li>
+<li><p><strong>consider_video_caption_from_video</strong> – whether to consider the video
+caption generated from video directly in the summarization process.
+Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_audio</strong> – whether to consider the video
+caption generated from audio streams in the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_frames</strong> – whether to consider the
+video caption generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_audio</strong> – whether to consider the video
+tags generated from audio streams in the video in the summarization
+process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_frames</strong> – whether to consider the video
+tags generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>vid_cap_from_vid_args</strong> – the arg dict for video captioning from
+video directly with keys are the arg names and values are the arg
+values. Default: None.</p></li>
+<li><p><strong>vid_cap_from_frm_args</strong> – the arg dict for video captioning from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_aud_args</strong> – the arg dict for video tagging from audio
+streams in the video with keys are the arg names and values are the
+arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_frm_args</strong> – the arg dict for video tagging from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>keep_tag_num</strong> – max number N of tags from sampled frames to keep.
+Too many tags might bring negative influence to summarized text, so
+we consider to only keep the N most frequent tags. Default: 5.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only summarized captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromVideoMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromVideoMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+a video-to-text model and sampled video frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_video_blip</strong> – video-blip model name on huggingface
+to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of video-blip
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoExtractFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoExtractFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'video_frames'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoExtractFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to extract frames from video files according to specified methods.
+Extracted Frames Data Format:</p>
+<blockquote>
+<div><p>The data format for the extracted frames is a dictionary mapping
+video key to extracted frames directory where the extracted
+frames are saved. The dictionary follows the structure:
+{</p>
+<blockquote>
+<div><p>“video_key_1”: “/${frame_dir}/video_key_1_filename/”,
+“video_key_2”: “/${frame_dir}/video_key_2_filename/”,
+…</p>
+</div></blockquote>
+<p>}</p>
+</div></blockquote>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoExtractFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'video_frames'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoExtractFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param frame_sampling_method: sampling method of extracting frame</p>
+<blockquote>
+<div><p>videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+If “duration” &gt; 0, frame_sampling_method acts on every segment.
+Default: “all_keyframes”.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.
+If “duration” &gt; 0, frame_num is the number of frames per segment.</p></li>
+<li><p><strong>duration</strong> – The duration of each segment in seconds.
+If 0, frames are extracted from the entire video.
+If duration &gt; 0, the video is segmented into multiple segments
+based on duration, and frames are extracted from each segment.</p></li>
+<li><p><strong>frame_dir</strong> – Output directory to save extracted frames.
+If None, a default directory based on the video file path is used.</p></li>
+<li><p><strong>frame_key</strong> – The name of field to save generated frames info.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoExtractFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg video filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg video filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in videos.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoRemoveWatermarkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoRemoveWatermarkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoRemoveWatermarkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Remove the watermarks in videos given regions.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>roi_strings</strong> – a given list of regions the watermarks locate.
+The format of each can be “x1, y1, x2, y2”, “(x1, y1, x2, y2)”,
+or “[x1, y1, x2, y2]”.</p></li>
+<li><p><strong>roi_type</strong> – the roi string type. When the type is ‘pixel’, (x1,
+y1), (x2, y2) are the locations of pixels in the top left corner
+and the bottom right corner respectively. If the roi_type is
+‘ratio’, the coordinates are normalized by wights and heights.</p></li>
+<li><p><strong>roi_key</strong> – the key name of fields in samples to store roi_strings
+for each sample. It’s used for set different rois for different
+samples. If it’s none, use rois in parameter “roi_strings”.
+It’s None in default.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video to detect the pixels of watermark.</p></li>
+<li><p><strong>min_frame_threshold</strong> – a coodination is considered as the
+location of a watermark pixel when it is that in no less
+min_frame_threshold frames.</p></li>
+<li><p><strong>detection_method</strong> – the method to detect the pixels of watermark.
+If it is ‘pixel_value’, we consider the distribution of pixel
+value in each frame. If it is ‘pixel_diversity’, we will consider
+the pixel diversity in different frames. The min_frame_threshold
+is useless and frame_num must be greater than 1 in
+‘pixel_diversity’ mode.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeAspectRatioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeAspectRatioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos by aspect ratio.
+AspectRatio = W / H.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY">
+<span class="sig-name descname"><span class="pre">STRATEGY</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['decrease',</span> <span class="pre">'increase']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to enforce videos with
+an aspect ratio below <cite>min_ratio</cite> will be resized to match
+this minimum ratio. The ratio should be provided as a string
+in the format “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to enforce videos with
+an aspect ratio above <cite>max_ratio</cite> will be resized to match
+this maximum ratio. The ratio should be provided as a string
+in the format “21:9” or “21/9”.</p></li>
+<li><p><strong>strategy</strong> – The resizing strategy to apply when adjusting the
+video dimensions. It can be either ‘decrease’ to reduce the
+dimension or ‘increase’ to enlarge it. Accepted values are
+[‘decrease’, ‘increase’].</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeResolutionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeResolutionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeResolutionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos resolution. We leave the super resolution
+with deep learning for future works.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – Videos with width less than ‘min_width’ will be
+mapped to videos with equal or bigger width.</p></li>
+<li><p><strong>max_width</strong> – Videos with width more than ‘max_width’ will be
+mapped to videos with equal of smaller width.</p></li>
+<li><p><strong>min_height</strong> – Videos with height less than ‘min_height’ will be
+mapped to videos with equal or bigger height.</p></li>
+<li><p><strong>max_height</strong> – Videos with height more than ‘max_height’ will be
+mapped to videos with equal or smaller height.</p></li>
+<li><p><strong>force_original_aspect_ratio</strong> – Enable decreasing or             increasing output video width or height if necessary             to keep the original aspect ratio, including [‘disable’,             ‘decrease’, ‘increase’].</p></li>
+<li><p><strong>force_divisible_by</strong> – Ensures that both the output dimensions,             width and height, are divisible by the given integer when used             together with force_original_aspect_ratio, must be a positive             even number.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByDurationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by duration.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>split_duration</strong> – duration of each video split in seconds.</p></li>
+<li><p><strong>min_last_split_duration</strong> – The minimum allowable duration in
+seconds for the last video split. If the duration of the last
+split is less than this value, it will be discarded.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only cut sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration">
+<span class="sig-name descname"><span class="pre">split_videos_by_duration</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.split_videos_by_duration"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByKeyFrameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by key frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only split sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">
+<span class="sig-name descname"><span class="pre">get_split_key_frame</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.get_split_key_frame"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitBySceneMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to cut videos into scene clips.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors">
+<span class="sig-name descname"><span class="pre">avaliable_detectors</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'AdaptiveDetector':</span> <span class="pre">['window_width',</span> <span class="pre">'min_content_val',</span> <span class="pre">'weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size',</span> <span class="pre">'video_manager',</span> <span class="pre">'min_delta_hsv'],</span> <span class="pre">'ContentDetector':</span> <span class="pre">['weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size'],</span> <span class="pre">'ThresholdDetector':</span> <span class="pre">['fade_bias',</span> <span class="pre">'add_final_scene',</span> <span class="pre">'method',</span> <span class="pre">'block_size']}</span></em><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>detector</strong> – Algorithm from <cite>scenedetect.detectors</cite>. Should be one
+of [‘ContentDetector’, ‘ThresholdDetector’, ‘AdaptiveDetector`].</p></li>
+<li><p><strong>threshold</strong> – Threshold passed to the detector.</p></li>
+<li><p><strong>min_scene_len</strong> – Minimum length of any scene.</p></li>
+<li><p><strong>show_progress</strong> – Whether to show progress from scenedetect.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_audio_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from audio streams extracted by video
+using the Audio Spectrogram Transformer.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_audio_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_ast</strong> – path to the HF model to tag from audios.</p></li>
+<li><p><strong>trust_remote_code</strong> – whether to trust the remote code of HF models</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“video_audio_tags” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from frames extract by video.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'video_frame_tags'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“video_frame_tags” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.WhitespaceNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">WhitespaceNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.WhitespaceNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize different kinds of whitespaces to whitespace ‘ ‘ (0x20)
+in text samples.</p>
+<p>Different kinds of whitespaces can be found here:
+<a class="reference external" href="https://en.wikipedia.org/wiki/Whitespace_character">https://en.wikipedia.org/wiki/Whitespace_character</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-left" title="data_juicer.ops.filter" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-right" title="data_juicer.ops.deduplicator" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.grouper.html" class="btn btn-neutral float-left" title="data_juicer.ops.grouper package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-right" title="data_juicer.ops.selector package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.selector.html b/data_juicer.ops.selector.html
index cacac57f2..aeb70ce06 100644
--- a/data_juicer.ops.selector.html
+++ b/data_juicer.ops.selector.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.selector &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.ops.selector package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.common" href="data_juicer.ops.common.html" />
-    <link rel="prev" title="data_juicer.ops.deduplicator" href="data_juicer.ops.deduplicator.html" /> 
+    <link rel="next" title="data_juicer.analysis package" href="data_juicer.analysis.html" />
+    <link rel="prev" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,16 +42,25 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.tags_specified_field_selector">data_juicer.ops.selector.tags_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -68,7 +77,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.selector</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.selector.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -78,16 +88,529 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="data-juicer-ops-selector">
-<h1>data_juicer.ops.selector<a class="headerlink" href="#data-juicer-ops-selector" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-selector-package">
+<h1>data_juicer.ops.selector package<a class="headerlink" href="#data-juicer-ops-selector-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.selector.frequency_specified_field_selector">
+<span id="data-juicer-ops-selector-frequency-specified-field-selector-module"></span><h2>data_juicer.ops.selector.frequency_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.frequency_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.frequency_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">FrequencySpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select samples based on the sorted frequency of specified
+field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.random_selector">
+<span id="data-juicer-ops-selector-random-selector-module"></span><h2>data_juicer.ops.selector.random_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.random_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.random_selector.</span></span><span class="sig-name descname"><span class="pre">RandomSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to random select samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>select_ratio</strong> – The ratio to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>select_num</strong> – The number of samples to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.range_specified_field_selector">
+<span id="data-juicer-ops-selector-range-specified-field-selector-module"></span><h2>data_juicer.ops.selector.range_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.range_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.range_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">RangeSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select a range of samples based on the sorted
+specified field value from smallest to largest.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>lower_percentile</strong> – The lower bound of the percentile to
+be sample, samples will be selected if their specified field
+values are greater than this lower bound. When both
+lower_percentile and lower_rank are set, the value corresponding
+to the larger number of samples will be applied.</p></li>
+<li><p><strong>upper_percentile</strong> – The upper bound of the percentile to
+be sample, samples will be selected if their specified field
+values are less or equal to the upper bound. When both
+upper_percentile and upper_rank are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>lower_rank</strong> – The lower bound of the rank to be sample,
+samples will be selected if their specified field values are
+greater than this lower bound. When both lower_percentile and
+lower_rank are set, the value corresponding to the larger number
+of samples will be applied.</p></li>
+<li><p><strong>upper_rank</strong> – The upper bound of the rank to be sample,
+samples will be selected if their specified field values are
+less or equal to the upper bound. When both upper_percentile and
+upper_rank are set, the value corresponding to the smaller number
+of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.tags_specified_field_selector">
+<span id="data-juicer-ops-selector-tags-specified-field-selector-module"></span><h2>data_juicer.ops.selector.tags_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.tags_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.tags_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">TagsSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select samples based on the tags of specified
+field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_tags</strong> – Target tags to be select.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.topk_specified_field_selector">
+<span id="data-juicer-ops-selector-topk-specified-field-selector-module"></span><h2>data_juicer.ops.selector.topk_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.topk_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.topk_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">TopkSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select top samples based on the sorted specified field
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top samples, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top sample, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.FrequencySpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">FrequencySpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.FrequencySpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select samples based on the sorted frequency of specified
+field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RandomSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">RandomSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RandomSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to random select samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RandomSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RandomSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>select_ratio</strong> – The ratio to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>select_num</strong> – The number of samples to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RandomSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RandomSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RangeSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">RangeSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RangeSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select a range of samples based on the sorted
+specified field value from smallest to largest.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>lower_percentile</strong> – The lower bound of the percentile to
+be sample, samples will be selected if their specified field
+values are greater than this lower bound. When both
+lower_percentile and lower_rank are set, the value corresponding
+to the larger number of samples will be applied.</p></li>
+<li><p><strong>upper_percentile</strong> – The upper bound of the percentile to
+be sample, samples will be selected if their specified field
+values are less or equal to the upper bound. When both
+upper_percentile and upper_rank are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>lower_rank</strong> – The lower bound of the rank to be sample,
+samples will be selected if their specified field values are
+greater than this lower bound. When both lower_percentile and
+lower_rank are set, the value corresponding to the larger number
+of samples will be applied.</p></li>
+<li><p><strong>upper_rank</strong> – The upper bound of the rank to be sample,
+samples will be selected if their specified field values are
+less or equal to the upper bound. When both upper_percentile and
+upper_rank are set, the value corresponding to the smaller number
+of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.RangeSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TagsSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">TagsSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TagsSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select samples based on the tags of specified
+field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TagsSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TagsSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_tags</strong> – Target tags to be select.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TagsSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/tags_specified_field_selector.html#TagsSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TagsSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TopkSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">TopkSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TopkSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select top samples based on the sorted specified field
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top samples, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top sample, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.TopkSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-left" title="data_juicer.ops.deduplicator" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-right" title="data_juicer.ops.common" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-left" title="data_juicer.ops.mapper package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.analysis.html" class="btn btn-neutral float-right" title="data_juicer.analysis package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.tools.html b/data_juicer.tools.html
index 3e88c5fab..f46de8ebb 100644
--- a/data_juicer.tools.html
+++ b/data_juicer.tools.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.tools &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.tools package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.tools</li>
+      <li class="breadcrumb-item active">data_juicer.tools package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.tools.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,11 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.tools">
-<span id="data-juicer-tools"></span><h1>data_juicer.tools<a class="headerlink" href="#module-data_juicer.tools" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-tools-package">
+<h1>data_juicer.tools package<a class="headerlink" href="#data-juicer-tools-package" title="Link to this heading">¶</a></h1>
+<section id="module-data_juicer.tools">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.tools" title="Link to this heading">¶</a></h2>
+</section>
 </section>
 
 
diff --git a/data_juicer.utils.html b/data_juicer.utils.html
index 8654b6eb4..940701bbc 100644
--- a/data_juicer.utils.html
+++ b/data_juicer.utils.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils &mdash; data_juicer 1.0.3 documentation</title>
+  <title>data_juicer.utils package &mdash; data_juicer 1.0.3 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=b86133f3" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.utils</li>
+      <li class="breadcrumb-item active">data_juicer.utils package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.utils.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,2397 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.utils">
-<span id="data-juicer-utils"></span><h1>data_juicer.utils<a class="headerlink" href="#module-data_juicer.utils" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-utils-package">
+<h1>data_juicer.utils package<a class="headerlink" href="#data-juicer-utils-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.asset_utils">
+<span id="data-juicer-utils-asset-utils-module"></span><h2>data_juicer.utils.asset_utils module<a class="headerlink" href="#module-data_juicer.utils.asset_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.asset_utils.load_words_asset">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.asset_utils.</span></span><span class="sig-name descname"><span class="pre">load_words_asset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/asset_utils.html#load_words_asset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.asset_utils.load_words_asset" title="Link to this definition">¶</a></dt>
+<dd><p>Load words from a asset file named <cite>words_type</cite>, if not find a valid asset
+file, then download it from ASSET_LINKS cached by data_juicer team.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>words_dir</strong> – directory that stores asset file(s)</p></li>
+<li><p><strong>words_type</strong> – name of target words assets</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dict that stores words assets, whose keys are language
+names, and the values are lists of words</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.auto_install_mapping">
+<span id="data-juicer-utils-auto-install-mapping-module"></span><h2>data_juicer.utils.auto_install_mapping module<a class="headerlink" href="#module-data_juicer.utils.auto_install_mapping" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.auto_install_utils">
+<span id="data-juicer-utils-auto-install-utils-module"></span><h2>data_juicer.utils.auto_install_utils module<a class="headerlink" href="#module-data_juicer.utils.auto_install_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.auto_install_utils.</span></span><span class="sig-name descname"><span class="pre">AutoInstaller</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">require_f_paths</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to install the required
+package automatically.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">require_f_paths</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>require_f_paths</strong> – paths to the file for version limitation</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.check">
+<span class="sig-name descname"><span class="pre">check</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">check_pkgs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">param</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.check"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.check" title="Link to this definition">¶</a></dt>
+<dd><p>install if the package is not installed.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>check_pkgs</strong> – packages to be check, install them if they are
+not installed</p></li>
+<li><p><strong>param</strong> – install param for pip if necessary</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.install">
+<span class="sig-name descname"><span class="pre">install</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.install"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.install" title="Link to this definition">¶</a></dt>
+<dd><p>install package for given module.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>module</strong> – module to be installed</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.availability_utils">
+<span id="data-juicer-utils-availability-utils-module"></span><h2>data_juicer.utils.availability_utils module<a class="headerlink" href="#module-data_juicer.utils.availability_utils" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.cache_utils">
+<span id="data-juicer-utils-cache-utils-module"></span><h2>data_juicer.utils.cache_utils module<a class="headerlink" href="#module-data_juicer.utils.cache_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.DatasetCacheControl">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.cache_utils.</span></span><span class="sig-name descname"><span class="pre">DatasetCacheControl</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#DatasetCacheControl"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.DatasetCacheControl" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that change the cache state temporarily.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.DatasetCacheControl.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#DatasetCacheControl.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.DatasetCacheControl.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.dataset_cache_control">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.cache_utils.</span></span><span class="sig-name descname"><span class="pre">dataset_cache_control</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#dataset_cache_control"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.dataset_cache_control" title="Link to this definition">¶</a></dt>
+<dd><p>A more easy-to-use decorator for functions that need to control the cache
+state temporarily.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.ckpt_utils">
+<span id="data-juicer-utils-ckpt-utils-module"></span><h2>data_juicer.utils.ckpt_utils module<a class="headerlink" href="#module-data_juicer.utils.ckpt_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.ckpt_utils.</span></span><span class="sig-name descname"><span class="pre">CheckpointManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to save the latest version of dataset to checkpoint
+directory or load it from checkpoint directory, a bit like cache management
+Rerun the same config will reload the checkpoint and skip ops before it.</p>
+<p>If any args of operator in process list is changed, all ops will be
+rerun from the beginning.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ckpt_dir</strong> – path to save and load checkpoint</p></li>
+<li><p><strong>original_process_list</strong> – process list in config</p></li>
+<li><p><strong>num_proc</strong> – number of process workers when saving dataset</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">
+<span class="sig-name descname"><span class="pre">get_left_process_list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.get_left_process_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list" title="Link to this definition">¶</a></dt>
+<dd><p>Get left process list of ops for processing dataset, when checkpoint is
+available, remove some ops from process list, otherwise keep it
+unchanged.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>process list of left ops</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">
+<span class="sig-name descname"><span class="pre">check_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Check if checkpoint is available.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>True when checkpoint is available, else False</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.record">
+<span class="sig-name descname"><span class="pre">record</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.record"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.record" title="Link to this definition">¶</a></dt>
+<dd><p>Save op name and args to op record, which is used to compare with
+the process list from config to decide if a checkpoint is available.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">
+<span class="sig-name descname"><span class="pre">check_ops_to_skip</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ops_to_skip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip" title="Link to this definition">¶</a></dt>
+<dd><p>Check which ops need to be skipped in the process list.</p>
+<p>If op record list from checkpoint are the same as the prefix
+part of process list, then skip these ops and start processing
+from the checkpoint. Otherwise, process the original dataset
+from scratch.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>whether to skip some ops or not</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">
+<span class="sig-name descname"><span class="pre">save_ckpt</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.save_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Save dataset to checkpoint directory and dump processed ops list.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>ds</strong> – input dataset to save</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">
+<span class="sig-name descname"><span class="pre">load_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.load_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Load dataset from a checkpoint file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a dataset stored in checkpoint file.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.common_utils">
+<span id="data-juicer-utils-common-utils-module"></span><h2>data_juicer.utils.common_utils module<a class="headerlink" href="#module-data_juicer.utils.common_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.stats_to_number">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">stats_to_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#stats_to_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.stats_to_number" title="Link to this definition">¶</a></dt>
+<dd><p>convert a stats value which can be string
+of list to a float.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.dict_to_hash">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">dict_to_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_dict</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hash_length</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#dict_to_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.dict_to_hash" title="Link to this definition">¶</a></dt>
+<dd><p>hash a dict to a string with length hash_length</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>input_dict</strong> – the given dict</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.nested_access">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">nested_access</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">digit_allowed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#nested_access"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.nested_access" title="Link to this definition">¶</a></dt>
+<dd><p>Access nested data using a dot-separated path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>data</strong> – A dictionary or a list to access the nested data from.</p></li>
+<li><p><strong>path</strong> – A dot-separated string representing the path to access.
+This can include numeric indices when accessing list
+elements.</p></li>
+<li><p><strong>digit_allowed</strong> – Allow transfering string to digit.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The value located at the specified path, or raises a KeyError
+or IndexError if the path does not exist.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.is_string_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">is_string_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">var</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#is_string_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.is_string_list" title="Link to this definition">¶</a></dt>
+<dd><p>return if the var is list of string.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>var</strong> – input variance</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.avg_split_string_list_under_limit">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">avg_split_string_list_under_limit</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">str_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">token_nums</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#avg_split_string_list_under_limit"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.avg_split_string_list_under_limit" title="Link to this definition">¶</a></dt>
+<dd><p>Split the string list to several sub str_list, such that the total
+token num of each sub string list is less than max_token_num, keeping
+the total token nums of sub string lists are similar.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>str_list</strong> – input string list.</p></li>
+<li><p><strong>token_nums</strong> – token num of each string list.</p></li>
+<li><p><strong>max_token_num</strong> – max token num of each sub string list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.is_float">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">is_float</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#is_float"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.is_float" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.compress">
+<span id="data-juicer-utils-compress-module"></span><h2>data_juicer.utils.compress module<a class="headerlink" href="#module-data_juicer.utils.compress" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.FileLock">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">FileLock</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lock_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">os.PathLike</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timeout</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">420</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">thread_local</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blocking</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">is_singleton</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#FileLock"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.FileLock" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">FileLock</span></code></p>
+<p>File lock for compresssion or decompression, and
+remove lock file automatically.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Extractor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Extractor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Extractor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Extractor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Extractor</span></code></p>
+<p>Extract content from a compressed file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Extractor.extract">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">extract</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">extractor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Extractor.extract"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Extractor.extract" title="Link to this definition">¶</a></dt>
+<dd><p>Extract content from a compressed file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to compressed file.</p></li>
+<li><p><strong>output_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>extractor_format</strong> – extraction format,
+see supported algorithm in <cite>Extractor</cite> of huggingface dataset.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.BaseCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">BaseCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#BaseCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.BaseCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ABC</span></code></p>
+<p>Base class that compresses a file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.BaseCompressor.compress">
+<em class="property"><span class="pre">abstract</span><span class="w"> </span><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#BaseCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.BaseCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.ZstdCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">ZstdCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#ZstdCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.ZstdCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>zstd</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.ZstdCompressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#ZstdCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.ZstdCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Lz4Compressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Lz4Compressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Lz4Compressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Lz4Compressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>lz4</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Lz4Compressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Lz4Compressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Lz4Compressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress a input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.GzipCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">GzipCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#GzipCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.GzipCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>gzip</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.GzipCompressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#GzipCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.GzipCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Compressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Compressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Compressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class that contains multiple compressors.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor.compressors">
+<span class="sig-name descname"><span class="pre">compressors</span></span><em class="property"><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="pre">Dict</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Type</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><span class="pre">BaseCompressor</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></em><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'gzip':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.GzipCompressor'&gt;,</span> <span class="pre">'lz4':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.Lz4Compressor'&gt;,</span> <span class="pre">'zstd':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.ZstdCompressor'&gt;}</span></em><a class="headerlink" href="#data_juicer.utils.compress.Compressor.compressors" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor.compress">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Compressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Compressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+<li><p><strong>compressor_format</strong> – compression format,
+see supported algorithm in <cite>compressors</cite>.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CompressManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to compress or decompress a input file
+using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.compress">
+<span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.decompress">
+<span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.decompress" title="Link to this definition">¶</a></dt>
+<dd><p>Decompress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to compressed file.</p></li>
+<li><p><strong>output_path</strong> – path to uncompressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CacheCompressManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to compress or decompress huggingface cache files
+using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.compress">
+<span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">this_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress cache files with fingerprint in dataset cache directory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>prev_ds</strong> – previous dataset whose cache files need to be
+compressed here.</p></li>
+<li><p><strong>this_ds</strong> – Current dataset that is computed from the previous
+dataset. There might be overlaps between cache files of them, so we
+must not compress cache files that will be used again in the
+current dataset. If it’s None, it means all cache files of previous
+dataset should be compressed.</p></li>
+<li><p><strong>num_proc</strong> – number of processes to compress cache files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.decompress">
+<span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fingerprints</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.decompress" title="Link to this definition">¶</a></dt>
+<dd><p>Decompress compressed cache files with fingerprint in
+dataset cache directory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ds</strong> – input dataset.</p></li>
+<li><p><strong>fingerprints</strong> – fingerprintd of cache files. String or List are
+accepted. If <cite>None</cite>, we will find all cache files which starts with
+<cite>cache-</cite> and ends with compression format.</p></li>
+<li><p><strong>num_proc</strong> – number of processes to decompress cache files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">
+<span class="sig-name descname"><span class="pre">format_cache_file_name</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cache_file_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.format_cache_file_name"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name" title="Link to this definition">¶</a></dt>
+<dd><p>Use <cite>*</cite> to replace the sub rank in a cache file name.
+:param cache_file_name: a cache file name.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">
+<span class="sig-name descname"><span class="pre">cleanup_cache_files</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.cleanup_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files" title="Link to this definition">¶</a></dt>
+<dd><p>Clean up all compressed cache files in dataset cache directory,
+which starts with <cite>cache-</cite> and ends with compression format
+:param ds: input dataset.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressionOff">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CompressionOff</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressionOff"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressionOff" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that turn off the cache compression temporarily.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.compress">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_ds</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">this_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.compress" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.decompress">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fingerprints</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.decompress" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.cleanup_compressed_cache_files">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">cleanup_compressed_cache_files</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#cleanup_compressed_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.cleanup_compressed_cache_files" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.constant">
+<span id="data-juicer-utils-constant-module"></span><h2>data_juicer.utils.constant module<a class="headerlink" href="#module-data_juicer.utils.constant" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">Fields</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#Fields"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.Fields" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.stats">
+<span class="sig-name descname"><span class="pre">stats</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__stats__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.stats" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.meta">
+<span class="sig-name descname"><span class="pre">meta</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__meta__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.meta" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.batch_meta">
+<span class="sig-name descname"><span class="pre">batch_meta</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__batch_meta__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.batch_meta" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.context">
+<span class="sig-name descname"><span class="pre">context</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__context__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.context" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.suffix">
+<span class="sig-name descname"><span class="pre">suffix</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__suffix__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.suffix" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.source_file">
+<span class="sig-name descname"><span class="pre">source_file</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__source_file__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.source_file" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.multimodal_data_output_dir">
+<span class="sig-name descname"><span class="pre">multimodal_data_output_dir</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__produced_data__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.multimodal_data_output_dir" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.BatchMetaKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">BatchMetaKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#BatchMetaKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.BatchMetaKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.BatchMetaKeys.entity_attribute">
+<span class="sig-name descname"><span class="pre">entity_attribute</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entity_attribute'</span></em><a class="headerlink" href="#data_juicer.utils.constant.BatchMetaKeys.entity_attribute" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.BatchMetaKeys.most_relavant_entities">
+<span class="sig-name descname"><span class="pre">most_relavant_entities</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'most_relavant_entities'</span></em><a class="headerlink" href="#data_juicer.utils.constant.BatchMetaKeys.most_relavant_entities" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">MetaKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#MetaKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity">
+<span class="sig-name descname"><span class="pre">dialog_sentiment_intensity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_sentiment_intensity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity_analysis">
+<span class="sig-name descname"><span class="pre">dialog_sentiment_intensity_analysis</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_sentiment_intensity_analysis'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity_analysis" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_sentiment_label">
+<span class="sig-name descname"><span class="pre">query_sentiment_label</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_sentiment_label'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_sentiment_label" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_sentiment_score">
+<span class="sig-name descname"><span class="pre">query_sentiment_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_sentiment_label_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_sentiment_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels">
+<span class="sig-name descname"><span class="pre">dialog_sentiment_labels</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_sentiment_labels'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels_analysis">
+<span class="sig-name descname"><span class="pre">dialog_sentiment_labels_analysis</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_sentiment_labels_analysis'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels_analysis" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_intent_labels">
+<span class="sig-name descname"><span class="pre">dialog_intent_labels</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_intent_labels'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_intent_labels" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_intent_labels_analysis">
+<span class="sig-name descname"><span class="pre">dialog_intent_labels_analysis</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_intent_labels_analysis'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_intent_labels_analysis" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_intent_label">
+<span class="sig-name descname"><span class="pre">query_intent_label</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_intent_label'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_intent_label" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_intent_score">
+<span class="sig-name descname"><span class="pre">query_intent_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_intent_label_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_intent_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_topic_labels">
+<span class="sig-name descname"><span class="pre">dialog_topic_labels</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_topic_labels'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_topic_labels" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.dialog_topic_labels_analysis">
+<span class="sig-name descname"><span class="pre">dialog_topic_labels_analysis</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dialog_topic_labels_analysis'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.dialog_topic_labels_analysis" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_topic_label">
+<span class="sig-name descname"><span class="pre">query_topic_label</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_topic_label'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_topic_label" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.query_topic_score">
+<span class="sig-name descname"><span class="pre">query_topic_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'query_topic_label_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.query_topic_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.video_frame_tags">
+<span class="sig-name descname"><span class="pre">video_frame_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frame_tags'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.video_frame_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.video_audio_tags">
+<span class="sig-name descname"><span class="pre">video_audio_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_audio_tags'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.video_audio_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.video_frames">
+<span class="sig-name descname"><span class="pre">video_frames</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frames'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.video_frames" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.image_tags">
+<span class="sig-name descname"><span class="pre">image_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_tags'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.image_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.event_description">
+<span class="sig-name descname"><span class="pre">event_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'event_description'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.event_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.relevant_characters">
+<span class="sig-name descname"><span class="pre">relevant_characters</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relevant_characters'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.relevant_characters" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.main_entities">
+<span class="sig-name descname"><span class="pre">main_entities</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'main_entities'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.main_entities" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.attributes">
+<span class="sig-name descname"><span class="pre">attributes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'attributes'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.attributes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.attribute_descriptions">
+<span class="sig-name descname"><span class="pre">attribute_descriptions</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'attribute_descriptions'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.attribute_descriptions" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.attribute_support_texts">
+<span class="sig-name descname"><span class="pre">attribute_support_texts</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'attribute_support_texts'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.attribute_support_texts" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.nickname">
+<span class="sig-name descname"><span class="pre">nickname</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'nickname'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.nickname" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.entity">
+<span class="sig-name descname"><span class="pre">entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.entity_name">
+<span class="sig-name descname"><span class="pre">entity_name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entity_name'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.entity_name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.entity_type">
+<span class="sig-name descname"><span class="pre">entity_type</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entity_type'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.entity_type" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.entity_description">
+<span class="sig-name descname"><span class="pre">entity_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entity_entity_description'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.entity_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.relation">
+<span class="sig-name descname"><span class="pre">relation</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.relation" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.source_entity">
+<span class="sig-name descname"><span class="pre">source_entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation_source_entity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.source_entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.target_entity">
+<span class="sig-name descname"><span class="pre">target_entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation_target_entity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.target_entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.relation_description">
+<span class="sig-name descname"><span class="pre">relation_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation_description'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.relation_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.relation_keywords">
+<span class="sig-name descname"><span class="pre">relation_keywords</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation_keywords'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.relation_keywords" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.relation_strength">
+<span class="sig-name descname"><span class="pre">relation_strength</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'relation_strength'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.relation_strength" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.keyword">
+<span class="sig-name descname"><span class="pre">keyword</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'keyword'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.keyword" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.support_text">
+<span class="sig-name descname"><span class="pre">support_text</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'support_text'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.support_text" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.MetaKeys.role_relation">
+<span class="sig-name descname"><span class="pre">role_relation</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'role_relation'</span></em><a class="headerlink" href="#data_juicer.utils.constant.MetaKeys.role_relation" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysMeta">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeysMeta</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysMeta"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysMeta" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">type</span></code></p>
+<p>a helper class to track the mapping from OP’s name to its used stats_keys</p>
+<p>e.g., # once the AlphanumericFilter’s compute_stats method has been called
+res = TrackingDescriptor.get_access_log()
+print(res) # {“AlphanumericFilter”: [“alnum_ratio”, “alpha_token_ratio”]}</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysMeta.get_access_log">
+<span class="sig-name descname"><span class="pre">get_access_log</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dj_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysMeta.get_access_log"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysMeta.get_access_log" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeysConstant</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysConstant"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio">
+<span class="sig-name descname"><span class="pre">alpha_token_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'alpha_token_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.alnum_ratio">
+<span class="sig-name descname"><span class="pre">alnum_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'alnum_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.avg_line_length">
+<span class="sig-name descname"><span class="pre">avg_line_length</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'avg_line_length'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.avg_line_length" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio">
+<span class="sig-name descname"><span class="pre">char_rep_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'char_rep_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio">
+<span class="sig-name descname"><span class="pre">flagged_words_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'flagged_words_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.lang">
+<span class="sig-name descname"><span class="pre">lang</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'lang'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.lang" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.lang_score">
+<span class="sig-name descname"><span class="pre">lang_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'lang_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.lang_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.max_line_length">
+<span class="sig-name descname"><span class="pre">max_line_length</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'max_line_length'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.max_line_length" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.perplexity">
+<span class="sig-name descname"><span class="pre">perplexity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'perplexity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.perplexity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.special_char_ratio">
+<span class="sig-name descname"><span class="pre">special_char_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'special_char_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio">
+<span class="sig-name descname"><span class="pre">stopwords_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'stopwords_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.text_len">
+<span class="sig-name descname"><span class="pre">text_len</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'text_len'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.text_len" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_action">
+<span class="sig-name descname"><span class="pre">num_action</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_action'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_action" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges">
+<span class="sig-name descname"><span class="pre">num_dependency_edges</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_dependency_edges'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_token">
+<span class="sig-name descname"><span class="pre">num_token</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_token'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_token" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_words">
+<span class="sig-name descname"><span class="pre">num_words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio">
+<span class="sig-name descname"><span class="pre">word_rep_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'word_rep_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.aspect_ratios">
+<span class="sig-name descname"><span class="pre">aspect_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'aspect_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_width">
+<span class="sig-name descname"><span class="pre">image_width</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_width'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_width" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_height">
+<span class="sig-name descname"><span class="pre">image_height</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_height'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_height" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_sizes">
+<span class="sig-name descname"><span class="pre">image_sizes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_sizes'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_sizes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_ratios">
+<span class="sig-name descname"><span class="pre">face_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_detections">
+<span class="sig-name descname"><span class="pre">face_detections</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_detections'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_detections" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_counts">
+<span class="sig-name descname"><span class="pre">face_counts</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_counts'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_counts" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores">
+<span class="sig-name descname"><span class="pre">image_aesthetics_scores</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_aesthetics_scores'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score">
+<span class="sig-name descname"><span class="pre">image_nsfw_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_nsfw_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob">
+<span class="sig-name descname"><span class="pre">image_watermark_prob</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_watermark_prob'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity">
+<span class="sig-name descname"><span class="pre">image_pair_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_pair_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_duration">
+<span class="sig-name descname"><span class="pre">audio_duration</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_duration'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr">
+<span class="sig-name descname"><span class="pre">audio_nmf_snr</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_nmf_snr'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_sizes">
+<span class="sig-name descname"><span class="pre">audio_sizes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_sizes'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_sizes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_duration">
+<span class="sig-name descname"><span class="pre">video_duration</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_duration'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios">
+<span class="sig-name descname"><span class="pre">video_aspect_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_aspect_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_width">
+<span class="sig-name descname"><span class="pre">video_width</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_width'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_width" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_height">
+<span class="sig-name descname"><span class="pre">video_height</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_height'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_height" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio">
+<span class="sig-name descname"><span class="pre">video_ocr_area_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_ocr_area_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score">
+<span class="sig-name descname"><span class="pre">video_aesthetic_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_aesthetic_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score">
+<span class="sig-name descname"><span class="pre">video_frames_aesthetics_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frames_aesthetics_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_motion_score">
+<span class="sig-name descname"><span class="pre">video_motion_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_motion_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_motion_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score">
+<span class="sig-name descname"><span class="pre">video_nsfw_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_nsfw_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob">
+<span class="sig-name descname"><span class="pre">video_watermark_prob</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_watermark_prob'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_text_similarity">
+<span class="sig-name descname"><span class="pre">image_text_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_text_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score">
+<span class="sig-name descname"><span class="pre">image_text_matching_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_text_matching_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall">
+<span class="sig-name descname"><span class="pre">phrase_grounding_recall</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'phrase_grounding_recall'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity">
+<span class="sig-name descname"><span class="pre">video_frames_text_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frames_text_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">HashKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#HashKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.HashKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.uid">
+<span class="sig-name descname"><span class="pre">uid</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__uid'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.uid" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.hash">
+<span class="sig-name descname"><span class="pre">hash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__hash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.hash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.minhash">
+<span class="sig-name descname"><span class="pre">minhash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__minhash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.minhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.simhash">
+<span class="sig-name descname"><span class="pre">simhash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__simhash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.simhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.imagehash">
+<span class="sig-name descname"><span class="pre">imagehash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__imagehash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.imagehash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.videohash">
+<span class="sig-name descname"><span class="pre">videohash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__videohash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.videohash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.is_unique">
+<span class="sig-name descname"><span class="pre">is_unique</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__is_unique'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.is_unique" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">InterVars</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#InterVars"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.InterVars" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.lines">
+<span class="sig-name descname"><span class="pre">lines</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__lines'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.lines" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.words">
+<span class="sig-name descname"><span class="pre">words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.refined_words">
+<span class="sig-name descname"><span class="pre">refined_words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__refined_words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.refined_words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_images">
+<span class="sig-name descname"><span class="pre">loaded_images</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_images'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_images" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_audios">
+<span class="sig-name descname"><span class="pre">loaded_audios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_audios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_audios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_videos">
+<span class="sig-name descname"><span class="pre">loaded_videos</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_videos'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_videos" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.sampled_frames">
+<span class="sig-name descname"><span class="pre">sampled_frames</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__sampled_frames'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.sampled_frames" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">JobRequiredKeys</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#JobRequiredKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Enum</span></code></p>
+<p>An enumeration.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.hook">
+<span class="sig-name descname"><span class="pre">hook</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'hook'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.hook" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.dj_configs">
+<span class="sig-name descname"><span class="pre">dj_configs</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dj_configs'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.dj_configs" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.meta_name">
+<span class="sig-name descname"><span class="pre">meta_name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'meta_name'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.meta_name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.extra_configs">
+<span class="sig-name descname"><span class="pre">extra_configs</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'extra_configs'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.extra_configs" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.file_utils">
+<span id="data-juicer-utils-file-utils-module"></span><h2>data_juicer.utils.file_utils module<a class="headerlink" href="#module-data_juicer.utils.file_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.follow_read">
+<em class="property"><span class="k"><span class="pre">async</span></span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">follow_read</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">logfile_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_existing_content</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">AsyncGenerator</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#follow_read"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.follow_read" title="Link to this definition">¶</a></dt>
+<dd><p>Read a file in online and iterative manner</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>logfile_path</strong> (<cite>str</cite>) – The file path to be read.</p></li>
+<li><p><strong>skip_existing_content</strong> (<cite>bool</cite>, defaults to <a href="#id1"><span class="problematic" id="id2">`</span></a>False) – If True, read from the end, otherwise read from the beginning.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>One line string of the file content.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.find_files_with_suffix">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">find_files_with_suffix</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#find_files_with_suffix"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.find_files_with_suffix" title="Link to this definition">¶</a></dt>
+<dd><p>Traverse a path to find all files with the specified suffixes.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>path</strong> – path (str/Path): source path</p></li>
+<li><p><strong>suffixes</strong> – specified file suffixes, ‘.txt’ or [‘.txt’, ‘.md’]
+etc</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>list of all files with the specified suffixes</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.is_absolute_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">is_absolute_path</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">bool</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#is_absolute_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.is_absolute_path" title="Link to this definition">¶</a></dt>
+<dd><p>Check whether input path is a absolute path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>path</strong> – input path</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>True means input path is absolute path, False means input
+path is a relative path.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.add_suffix_to_filename">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">add_suffix_to_filename</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filename</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffix</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#add_suffix_to_filename"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.add_suffix_to_filename" title="Link to this definition">¶</a></dt>
+<dd><p>Add a suffix to the filename. Only regard the content after the last dot
+as the file extension.
+E.g.
+1. abc.jpg + “_resized” –&gt; abc_resized.jpg
+2. edf.xyz.csv + “_processed” –&gt; edf.xyz_processed.csv
+3. /path/to/file.json + “_suf” –&gt; /path/to/file_suf.json
+4. ds.tar.gz + “_whoops” –&gt; ds.tar_whoops.gz (maybe unexpected)</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filename</strong> – input filename</p></li>
+<li><p><strong>suffix</strong> – suffix string to be added</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.create_directory_if_not_exists">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">create_directory_if_not_exists</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">directory_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#create_directory_if_not_exists"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.create_directory_if_not_exists" title="Link to this definition">¶</a></dt>
+<dd><p>create a directory if not exists, this function is process safe</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>directory_path</strong> – directory path to be create</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.transfer_filename">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">transfer_filename</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_filepath</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op_name</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">op_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#transfer_filename"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.transfer_filename" title="Link to this definition">¶</a></dt>
+<dd><p>According to the op and hashing its parameters ‘op_kwargs’ addition
+to the process id and current time as the ‘hash_val’, map the
+original_filepath to another unique file path. E.g.</p>
+<blockquote>
+<div><ol class="arabic simple">
+<li><dl class="simple">
+<dt>abc.jpg –&gt;</dt><dd><p>__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>./abc.jpg –&gt;</dt><dd><p>./__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>/path/to/abc.jpg –&gt;</dt><dd><p>/path/to/__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>/path/to/__dj__produced_data__/{op_name}/</dt><dd><p>abc__dj_hash_#{hash_val1}#.jpg –&gt;
+/path/to/__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val2}#.jpg</p>
+</dd>
+</dl>
+</li>
+</ol>
+</div></blockquote>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.copy_data">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">copy_data</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">from_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">to_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#copy_data"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.copy_data" title="Link to this definition">¶</a></dt>
+<dd><p>Copy data from from_dir/data_path to to_dir/data_path.
+Return True if success.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.fingerprint_utils">
+<span id="data-juicer-utils-fingerprint-utils-module"></span><h2>data_juicer.utils.fingerprint_utils module<a class="headerlink" href="#module-data_juicer.utils.fingerprint_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">Hasher</span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Hasher that accepts python objects as inputs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.dispatch">
+<span class="sig-name descname"><span class="pre">dispatch</span></span><em class="property"><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="pre">Dict</span></em><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{}</span></em><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.dispatch" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash_bytes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bytes</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">bytes</span><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash_bytes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash_default">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash_default</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash_default"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash_default" title="Link to this definition">¶</a></dt>
+<dd><p>Use dill to serialize objects to avoid serialization failures.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.update">
+<span class="sig-name descname"><span class="pre">update</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.update"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.update" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hexdigest">
+<span class="sig-name descname"><span class="pre">hexdigest</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hexdigest"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hexdigest" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.update_fingerprint">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">update_fingerprint</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fingerprint</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">transform</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">transform_args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#update_fingerprint"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.update_fingerprint" title="Link to this definition">¶</a></dt>
+<dd><p>Combining various objects to update the fingerprint.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.generate_fingerprint">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">generate_fingerprint</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#generate_fingerprint"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.generate_fingerprint" title="Link to this definition">¶</a></dt>
+<dd><p>Generate new fingerprints by using various kwargs of the dataset.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.lazy_loader">
+<span id="data-juicer-utils-lazy-loader-module"></span><h2>data_juicer.utils.lazy_loader module<a class="headerlink" href="#module-data_juicer.utils.lazy_loader" title="Link to this heading">¶</a></h2>
+<p>A LazyLoader class.</p>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.lazy_loader.LazyLoader">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.lazy_loader.</span></span><span class="sig-name descname"><span class="pre">LazyLoader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">local_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">auto_install</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/lazy_loader.html#LazyLoader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.lazy_loader.LazyLoader" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ModuleType</span></code></p>
+<p>Lazily import a module, mainly to avoid pulling in large dependencies.
+<cite>contrib</cite>, and <cite>ffmpeg</cite> are examples of modules that are large and not
+always needed, and this allows them to only be loaded when they are used.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.lazy_loader.LazyLoader.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">local_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">auto_install</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/lazy_loader.html#LazyLoader.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.lazy_loader.LazyLoader.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.logger_utils">
+<span id="data-juicer-utils-logger-utils-module"></span><h2>data_juicer.utils.logger_utils module<a class="headerlink" href="#module-data_juicer.utils.logger_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_caller_name">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_caller_name</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">depth</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_caller_name"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_caller_name" title="Link to this definition">¶</a></dt>
+<dd><p>Get caller name by depth.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>depth</strong> – depth of caller context, use 0 for caller depth.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>module name of the caller</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">StreamToLoguru</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Stream object that redirects writes to a logger instance.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>level</strong> – log level string of loguru. Default value: “INFO”.</p></li>
+<li><p><strong>caller_names</strong> – caller names of redirected module.
+Default value: (apex, pycocotools).</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.write">
+<span class="sig-name descname"><span class="pre">write</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">buf</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.write"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.write" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.getvalue">
+<span class="sig-name descname"><span class="pre">getvalue</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.getvalue"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.getvalue" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.flush">
+<span class="sig-name descname"><span class="pre">flush</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.flush"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.flush" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.redirect_sys_output">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">redirect_sys_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">log_level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#redirect_sys_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.redirect_sys_output" title="Link to this definition">¶</a></dt>
+<dd><p>Redirect stdout/stderr to loguru with log level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>log_level</strong> – log level string of loguru. Default value: “INFO”.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_log_file_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_log_file_path</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_log_file_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_log_file_path" title="Link to this definition">¶</a></dt>
+<dd><p>Get the path to the location of the log file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a location of log file.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.setup_logger">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">setup_logger</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">save_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">distributed_rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filename</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'log.txt'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redirect</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#setup_logger"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.setup_logger" title="Link to this definition">¶</a></dt>
+<dd><p>Setup logger for training and testing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>save_dir</strong> – location to save log file</p></li>
+<li><p><strong>distributed_rank</strong> – device rank when multi-gpu environment</p></li>
+<li><p><strong>filename</strong> – log file name to save</p></li>
+<li><p><strong>mode</strong> – log file write mode, <cite>append</cite> or <cite>override</cite>. default is <cite>o</cite>.</p></li>
+<li><p><strong>level</strong> – log severity level. It’s “INFO” in default.</p></li>
+<li><p><strong>redirect</strong> – whether to redirect system output</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>logger instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.HiddenPrints">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">HiddenPrints</span></span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#HiddenPrints"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.HiddenPrints" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that hide the outputs within this range.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.mm_utils">
+<span id="data-juicer-utils-mm-utils-module"></span><h2>data_juicer.utils.mm_utils module<a class="headerlink" href="#module-data_juicer.utils.mm_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">SpecialTokens</span></span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#SpecialTokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.image">
+<span class="sig-name descname"><span class="pre">image</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__image&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.image" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.audio">
+<span class="sig-name descname"><span class="pre">audio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__audio&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.audio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.video">
+<span class="sig-name descname"><span class="pre">video</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__video&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.video" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.eoc">
+<span class="sig-name descname"><span class="pre">eoc</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|__dj__eoc|&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.eoc" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py data">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">AV_STREAM_THREAD_TYPE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'AUTO'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE" title="Link to this definition">¶</a></dt>
+<dd><p>av stream thread type support “SLICE”, “FRAME”, “AUTO”.</p>
+<p>“SLICE”: Decode more than one part of a single frame at once</p>
+<p>“FRAME”: Decode more than one frame at once</p>
+<p>“AUTO”: Using both “FRAME” and “SLICE”
+AUTO is faster when there are no video latency.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_special_tokens</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.remove_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">remove_special_tokens</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#remove_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.remove_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.remove_non_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">remove_non_special_tokens</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#remove_non_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.remove_non_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_data_with_context">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_data_with_context</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">loaded_data_keys</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_func</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_data_with_context"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_data_with_context" title="Link to this definition">¶</a></dt>
+<dd><p>The unified loading function with contexts for multimodal data.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_images">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_images</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_images"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_images" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_images_byte">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_images_byte</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_images_byte"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_images_byte" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_image">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_image</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_image"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_image" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_image_byte">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_image_byte</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_image_byte"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_image_byte" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.image_path_to_base64">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">image_path_to_base64</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#image_path_to_base64"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.image_path_to_base64" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.image_byte_to_base64">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">image_byte_to_base64</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image_byte</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#image_byte_to_base64"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.image_byte_to_base64" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.pil_to_opencv">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">pil_to_opencv</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pil_image</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#pil_to_opencv"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.pil_to_opencv" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.detect_faces">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">detect_faces</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detector</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">extra_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#detect_faces"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.detect_faces" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_file_size">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_file_size</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_file_size"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_file_size" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.iou">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">iou</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">box1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">box2</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#iou"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.iou" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.calculate_resized_dimensions">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">calculate_resized_dimensions</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#calculate_resized_dimensions"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.calculate_resized_dimensions" title="Link to this definition">¶</a></dt>
+<dd><p>Resize dimensions based on specified constraints.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>original_size</strong> – The original dimensions as (height, width).</p></li>
+<li><p><strong>target_size</strong> – Desired target size; can be a single integer
+(short edge) or a tuple (height, width).</p></li>
+<li><p><strong>max_length</strong> – Maximum allowed length for the longer edge.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Resized dimensions as (height, width).</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_audios">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_audios</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_audios"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_audios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_audio">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_audio</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_audio"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_audio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_videos">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_videos</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_videos"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_videos" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'r'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_video" title="Link to this definition">¶</a></dt>
+<dd><p>Load a video using its path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>path</strong> – the path to this video.</p></li>
+<li><p><strong>mode</strong> – the loading mode. It’s “r” in default.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a container object form PyAv library, which contains all streams
+in this video (video/audio/…) and can be used to decode these streams
+to frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_video_duration">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_video_duration</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">video_stream_index</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_video_duration"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_video_duration" title="Link to this definition">¶</a></dt>
+<dd><p>Get the video’s duration from the container</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the container object form PyAv library, which
+contains all streams in this video (video/audio/…) and can be used
+to decode these streams to frames.</p></li>
+<li><p><strong>video_stream_index</strong> – the video stream index to decode,
+default set to 0.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>duration of the video in second</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_decoded_frames_from_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_decoded_frames_from_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">video_stream_index</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_decoded_frames_from_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_decoded_frames_from_video" title="Link to this definition">¶</a></dt>
+<dd><p>Get the video’s frames from the container</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the container object form PyAv library, which
+contains all streams in this video (video/audio/…) and can be used
+to decode these streams to frames.</p></li>
+<li><p><strong>video_stream_index</strong> – the video stream index to decode,
+default set to 0.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>an iterator of all the frames of the video</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.cut_video_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">cut_video_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">start_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">end_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#cut_video_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.cut_video_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Cut a video into several segments by times in second.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the path to input video or the video container.</p></li>
+<li><p><strong>output_video</strong> – the path to output video.</p></li>
+<li><p><strong>start_seconds</strong> – the start time in second.</p></li>
+<li><p><strong>end_seconds</strong> – the end time in second. If it’s None, this function
+will cut the video from the start_seconds to the end of the video.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a boolean flag indicating whether the video was successfully
+cut or not.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.process_each_frame">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">process_each_frame</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_func</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#process_each_frame"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.process_each_frame" title="Link to this definition">¶</a></dt>
+<dd><p>Process each frame in video by replacing each frame by
+<cite>frame_func(frame)</cite>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the path to input video or the video container.</p></li>
+<li><p><strong>output_video</strong> – the path to output video.</p></li>
+<li><p><strong>frame_func</strong> – a function which inputs a frame and outputs another
+frame.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_key_frames_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_key_frames_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_key_frames_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_key_frames_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Extract key frames by seconds.
+:param input_video: input video path or av.container.InputContainer.
+:param duration: duration of each video split in seconds.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_key_frames">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_key_frames</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_key_frames"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_key_frames" title="Link to this definition">¶</a></dt>
+<dd><p>Extract key frames from the input video. If there is no keyframes in the
+video, return the first frame.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>input_video</strong> – input video path or container.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of key frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_key_frame_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_key_frame_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_key_frame_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_key_frame_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Get seconds of key frames in the input video.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_video_frames_uniformly_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_video_frames_uniformly_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Extract video frames uniformly by seconds.
+:param input_video: input video path or av.container.InputContainer.
+:param frame_num: the number of frames to be extracted uniformly from</p>
+<blockquote>
+<div><p>each video split by duration.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>duration</strong> – duration of each video split in seconds.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_video_frames_uniformly">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_video_frames_uniformly</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_video_frames_uniformly"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_video_frames_uniformly" title="Link to this definition">¶</a></dt>
+<dd><p>Extract a number of video frames uniformly within the video duration.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – input video path or container.</p></li>
+<li><p><strong>frame_num</strong> – The number of frames to be extracted. If it’s 1, only the
+middle frame will be extracted. If it’s 2, only the first and the last
+frames will be extracted. If it’s larger than 2, in addition to the
+first and the last frames, other frames will be extracted uniformly
+within the video duration.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of extracted frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_audio_from_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_audio_from_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">start_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">end_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stream_indexes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_audio_from_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_audio_from_video" title="Link to this definition">¶</a></dt>
+<dd><p>Extract audio data for the given video.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – input video. Can be a video path or an
+av.container.InputContainer.</p></li>
+<li><p><strong>output_audio</strong> – output audio path. If it’s None, the audio data won’t
+be written to file. If stream_indexes is not None, it will output
+multiple audio files with original filename and the stream indexes.
+Default: None.</p></li>
+<li><p><strong>start_seconds</strong> – the start seconds to extract audio data. Default: 0,
+which means extract from the start of the video.</p></li>
+<li><p><strong>end_seconds</strong> – the end seconds to stop extracting audio data. If it’s
+None, the extraction won’t stop until the end of the video. Default:
+None.</p></li>
+<li><p><strong>stream_indexes</strong> – there might be multiple audio streams in the video,
+so we need to decide which audio streams with stream_indexes will be
+extracted. It can be a single index or a list of indexes. If it’s None,
+all audio streams will be extracted. Default: None.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.size_to_bytes">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">size_to_bytes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">size</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#size_to_bytes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.size_to_bytes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.insert_texts_after_placeholders">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">insert_texts_after_placeholders</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_string</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">placeholders</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_texts</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delimiter_in_insert_pos</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'</span> <span class="pre">'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#insert_texts_after_placeholders"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.insert_texts_after_placeholders" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.timecode_string_to_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">timecode_string_to_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">timecode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#timecode_string_to_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.timecode_string_to_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Convert a timecode string to the float seconds.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>timecode</strong> – the input timecode string. Must in “HH:MM:SS.fff(fff)”
+format.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.parse_string_to_roi">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">parse_string_to_roi</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_string</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'pixel'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#parse_string_to_roi"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.parse_string_to_roi" title="Link to this definition">¶</a></dt>
+<dd><p>Convert a roi string to four number x1, y1, x2, y2 stand for the region.
+When the type is ‘pixel’, (x1, y1), (x2, y2) are the locations of pixels
+in the top left corner and the bottom right corner respectively. If the
+roi_type is ‘ratio’, the coordinates are normalized by wights and
+heights.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>roi_string</strong> – the roi string</p>
+</dd>
+<dt class="field-even">Patam roi_type<span class="colon">:</span></dt>
+<dd class="field-even"><p>the roi string type</p>
+</dd>
+</dl>
+<p>return tuple of (x1, y1, x2, y2) if roi_string is valid, else None</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.close_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">close_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">container</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#close_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.close_video" title="Link to this definition">¶</a></dt>
+<dd><p>Close the video stream and container to avoid memory leak.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>container</strong> – the video container.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.model_utils">
+<span id="data-juicer-utils-model-utils-module"></span><h2>data_juicer.utils.model_utils module<a class="headerlink" href="#module-data_juicer.utils.model_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.get_backup_model_link">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">get_backup_model_link</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#get_backup_model_link"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.get_backup_model_link" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.check_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">check_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#check_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.check_model" title="Link to this definition">¶</a></dt>
+<dd><p>Check whether a model exists in DATA_JUICER_MODELS_CACHE.
+If exists, return its full path.
+Else, download it from cached models links.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – a specified model name</p></li>
+<li><p><strong>force</strong> – Whether to download model forcefully or not, Sometimes
+the model file maybe incomplete for some reason, so need to
+download again forcefully.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.APIModel">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">APIModel</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#APIModel"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.APIModel" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.APIModel.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#APIModel.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.APIModel.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initializes an instance of the APIModel class.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model</strong> – The name of the model to be used for making API
+calls. This should correspond to a valid model identifier
+recognized by the API server.</p></li>
+<li><p><strong>endpoint</strong> – The URL endpoint for the API. If provided as a
+relative path, it will be appended to the base URL (defined by the
+<cite>OPENAI_BASE_URL</cite> environment variable or through an additional
+<cite>base_url</cite> parameter). Defaults to ‘/chat/completions’ for
+OpenAI compatibility.</p></li>
+<li><p><strong>response_path</strong> – A dot-separated string specifying the path to
+extract the desired content from the API response. The default
+value is ‘choices.0.message.content’, which corresponds to the
+typical structure of an OpenAI API response.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments for configuring the
+internal OpenAI client.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_api_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_api_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_processor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processor_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_api_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_api_model" title="Link to this definition">¶</a></dt>
+<dd><p>Creates a callable API model for interacting with OpenAI-compatible API.
+The callable supports custom response parsing and works with proxy servers
+that may be incompatible.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model</strong> – The name of the model to interact with.</p></li>
+<li><p><strong>endpoint</strong> – The URL endpoint for the API. If provided as a relative
+path, it will be appended to the base URL (defined by the
+<cite>OPENAI_BASE_URL</cite> environment variable or through an additional
+<cite>base_url</cite> parameter). By default, it is set to
+‘/chat/completions’ for OpenAI compatibility.</p></li>
+<li><p><strong>response_path</strong> – The dot-separated  path to extract desired content
+from the API response. Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>return_processor</strong> – A boolean flag indicating whether to return a
+processor along with the model. The processor can be used for tasks
+like tokenization or encoding. Defaults to False.</p></li>
+<li><p><strong>processor_config</strong> – A dictionary containing configuration parameters
+for initializing a Hugging Face processor. It is only relevant if
+<cite>return_processor</cite> is set to True.</p></li>
+<li><p><strong>model_params</strong> – Additional parameters for configuring the API model.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A callable APIModel instance, and optionally a processor
+if <cite>return_processor</cite> is True.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_diffusion_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_diffusion_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">diffusion_type</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_diffusion_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_diffusion_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load an Diffusion model from HuggingFace.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – input Diffusion model name
+or local path to the model</p></li>
+<li><p><strong>diffusion_type</strong> – the use of the diffusion model. It can be
+‘image2image’, ‘text2image’, ‘inpainting’</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a Diffusion model.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_fasttext_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_fasttext_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'lid.176.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_fasttext_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_fasttext_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a fasttext model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>model_name</strong> – input model name</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_huggingface_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_huggingface_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_pipe</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pipe_task</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'text-generation'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_huggingface_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_huggingface_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a HuggingFace model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+<li><p><strong>return_pipe</strong> – whether to wrap model into pipeline</p></li>
+<li><p><strong>model_params</strong> – model initialization parameters.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple of (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_kenlm_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_kenlm_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}.arpa.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_kenlm_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_kenlm_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a kenlm model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name in formatting syntax.</p></li>
+<li><p><strong>lang</strong> – language to render model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_nltk_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_nltk_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'punkt.{}.pickle'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_nltk_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_nltk_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a nltk punkt model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name in formatting syntax</p></li>
+<li><p><strong>lang</strong> – language to render model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_opencv_classifier">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_opencv_classifier</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_opencv_classifier"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_opencv_classifier" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_recognizeAnything_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_recognizeAnything_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'ram_plus_swin_large_14m.pth'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">384</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_recognizeAnything_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_recognizeAnything_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load recognizeAnything model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name.</p></li>
+<li><p><strong>input_size</strong> – the input size of the model.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_sentencepiece_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_sentencepiece_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_sentencepiece_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_sentencepiece_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a sentencepiece model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>model_path</strong> – input model path</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_sentencepiece_for_lang</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}.sp.model'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_sentencepiece_for_lang"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a sentencepiece model for specific langauge.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language to render model name</p></li>
+<li><p><strong>name_pattern</strong> – pattern to render the model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_simple_aesthetics_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_simple_aesthetics_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_simple_aesthetics_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_simple_aesthetics_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a simple aesthetics model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_spacy_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_spacy_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}_core_web_md-3.7.0'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_spacy_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_spacy_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare spacy model for specific language.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>lang</strong> – language of sapcy model. Should be one of [“zh”,
+“en”]</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>corresponding spacy model</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_video_blip_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_video_blip_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_video_blip_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_video_blip_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a video-clip model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+<li><p><strong>trust_remote_code</strong> – passed to transformers</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_vllm_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_vllm_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_vllm_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_vllm_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a HuggingFace model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>model_params</strong> – LLM initialization parameters.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple of (model, tokenizer)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_type</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.get_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">get_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_cuda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#get_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.get_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.free_models">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">free_models</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#free_models"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.free_models" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.process_utils">
+<span id="data-juicer-utils-process-utils-module"></span><h2>data_juicer.utils.process_utils module<a class="headerlink" href="#module-data_juicer.utils.process_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.setup_mp">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">setup_mp</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#setup_mp"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.setup_mp" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.get_min_cuda_memory">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">get_min_cuda_memory</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#get_min_cuda_memory"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.get_min_cuda_memory" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.calculate_np">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">calculate_np</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mem_required</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cpu_required</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_cuda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#calculate_np"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.calculate_np" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate the optimum number of processes for the given OP</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.registry">
+<span id="data-juicer-utils-registry-module"></span><h2>data_juicer.utils.registry module<a class="headerlink" href="#module-data_juicer.utils.registry" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.registry.</span></span><span class="sig-name descname"><span class="pre">Registry</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to register some modules to registry by a repo
+name.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>name</strong> – a registry repo name</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.name">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">name</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.name" title="Link to this definition">¶</a></dt>
+<dd><p>Get name of current registry.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>name of current registry.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.modules">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">modules</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.modules" title="Link to this definition">¶</a></dt>
+<dd><p>Get all modules in current registry.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a dict storing modules in current registry.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.list">
+<span class="sig-name descname"><span class="pre">list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.list" title="Link to this definition">¶</a></dt>
+<dd><p>Logging the list of module in current registry.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.get">
+<span class="sig-name descname"><span class="pre">get</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.get"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.get" title="Link to this definition">¶</a></dt>
+<dd><p>Get module named module_key from in current registry. If not found,
+return None.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>module_key</strong> – specified module name</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>module named module_key</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.register_module">
+<span class="sig-name descname"><span class="pre">register_module</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">module_cls</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">type</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.register_module"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.register_module" title="Link to this definition">¶</a></dt>
+<dd><p>Register module class object to registry with the specified modulename.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>module_name</strong> – module name</p></li>
+<li><p><strong>module_cls</strong> – module class object</p></li>
+<li><p><strong>force</strong> – Whether to override an existing class with
+the same name. Default: False.</p></li>
+</ul>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">()</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="nd">@registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="k">class</span><span class="w"> </span><span class="nc">TextFormatter</span><span class="p">:</span>
+<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
+</pre></div>
+</div>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="k">class</span><span class="w"> </span><span class="nc">TextFormatter2</span><span class="p">:</span>
+<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span> <span class="n">module_name</span><span class="o">=</span><span class="s1">&#39;text_formatter2&#39;</span><span class="p">,</span>
+<span class="go">                            module_cls=TextFormatter2)</span>
+</pre></div>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.resource_utils">
+<span id="data-juicer-utils-resource-utils-module"></span><h2>data_juicer.utils.resource_utils module<a class="headerlink" href="#module-data_juicer.utils.resource_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.query_cuda_info">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">query_cuda_info</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">query_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#query_cuda_info"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.query_cuda_info" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.get_cpu_count">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">get_cpu_count</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#get_cpu_count"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.get_cpu_count" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.get_cpu_utilization">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">get_cpu_utilization</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#get_cpu_utilization"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.get_cpu_utilization" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.query_mem_info">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">query_mem_info</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">query_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#query_mem_info"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.query_mem_info" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.unittest_utils">
+<span id="data-juicer-utils-unittest-utils-module"></span><h2>data_juicer.utils.unittest_utils module<a class="headerlink" href="#module-data_juicer.utils.unittest_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.TEST_TAG">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">TEST_TAG</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">tags</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#TEST_TAG"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.TEST_TAG" title="Link to this definition">¶</a></dt>
+<dd><p>Tags for test case.
+Currently, <cite>standalone</cite>, <cite>ray</cite> are supported.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.set_clear_model_flag">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">set_clear_model_flag</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">flag</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#set_clear_model_flag"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.set_clear_model_flag" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">DataJuicerTestCaseBase</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">methodName</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'runTest'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">TestCase</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">setUpClass</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.setUpClass"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for setting up class fixture before running tests in the class.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">tearDownClass</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.tearDownClass"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for deconstructing the class fixture after running all tests in the class.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">tearDown</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.tearDown"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for deconstructing the test fixture after testing it.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">
+<span class="sig-name descname"><span class="pre">generate_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">DJDataset</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.generate_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Generate dataset for a specific executor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>type</strong> (<em>str</em><em>, </em><em>optional</em>) – “standalone” or “ray”.</p></li>
+<li><p><strong>&quot;standalone&quot;.</strong> (<em>Defaults to</em>)</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">
+<span class="sig-name descname"><span class="pre">run_single_op</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DJDataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_names</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.run_single_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op" title="Link to this definition">¶</a></dt>
+<dd><p>Run operator in the specific executor.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">
+<span class="sig-name descname"><span class="pre">assertDatasetEqual</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">first</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">second</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.assertDatasetEqual"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.utils" title="Link to this heading">¶</a></h2>
+</section>
 </section>
 
 
diff --git a/genindex.html b/genindex.html
index 458bb4862..5dca19342 100644
--- a/genindex.html
+++ b/genindex.html
@@ -11,7 +11,7 @@
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="#" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -80,12 +80,16 @@ <h1 id="index">Index</h1>
 <div class="genindex-jumpbox">
  <a href="#_"><strong>_</strong></a>
  | <a href="#A"><strong>A</strong></a>
+ | <a href="#B"><strong>B</strong></a>
  | <a href="#C"><strong>C</strong></a>
  | <a href="#D"><strong>D</strong></a>
  | <a href="#E"><strong>E</strong></a>
+ | <a href="#F"><strong>F</strong></a>
  | <a href="#G"><strong>G</strong></a>
+ | <a href="#H"><strong>H</strong></a>
  | <a href="#I"><strong>I</strong></a>
  | <a href="#J"><strong>J</strong></a>
+ | <a href="#K"><strong>K</strong></a>
  | <a href="#L"><strong>L</strong></a>
  | <a href="#M"><strong>M</strong></a>
  | <a href="#N"><strong>N</strong></a>
@@ -95,442 +99,6025 @@ <h1 id="index">Index</h1>
  | <a href="#R"><strong>R</strong></a>
  | <a href="#S"><strong>S</strong></a>
  | <a href="#T"><strong>T</strong></a>
+ | <a href="#U"><strong>U</strong></a>
+ | <a href="#V"><strong>V</strong></a>
  | <a href="#W"><strong>W</strong></a>
+ | <a href="#Z"><strong>Z</strong></a>
  
 </div>
 <h2 id="_">_</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">__init__() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__">__init__() (data_juicer.analysis.collector.TextTokenDistCollector method)</a>
 
       <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">(data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+</li>
         <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__">(data_juicer.analysis.DiversityAnalysis method)</a>
 </li>
-        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__">(data_juicer.analysis.OverallAnalysis method)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__">(data_juicer.analysis.OverallAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__">(data_juicer.core.monitor.Monitor method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">(data_juicer.format.csv_formatter.CsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.__init__">(data_juicer.format.CsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__">(data_juicer.format.empty_formatter.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">(data_juicer.format.empty_formatter.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__">(data_juicer.format.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">(data_juicer.format.formatter.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">(data_juicer.format.formatter.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">(data_juicer.format.json_formatter.JsonFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.__init__">(data_juicer.format.JsonFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.__init__">(data_juicer.format.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__">(data_juicer.format.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">(data_juicer.format.parquet_formatter.ParquetFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__">(data_juicer.format.ParquetFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__">(data_juicer.format.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__">(data_juicer.format.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">(data_juicer.format.text_formatter.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.__init__">(data_juicer.format.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">(data_juicer.format.tsv_formatter.TsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.__init__">(data_juicer.format.TsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.__init__">(data_juicer.ops.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__">(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.__init__">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">(data_juicer.ops.base_op.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">(data_juicer.ops.common.helper_func.UnionFind method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.__init__">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.__init__">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__">(data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__">(data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__">(data_juicer.ops.deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__">(data_juicer.ops.deduplicator.RayVideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.__init__">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.__init__">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.__init__">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.__init__">(data_juicer.ops.filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.__init__">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.__init__">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.__init__">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.__init__">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.__init__">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.__init__">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.__init__">(data_juicer.ops.filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.__init__">(data_juicer.ops.filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.__init__">(data_juicer.ops.filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.__init__">(data_juicer.ops.filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.__init__">(data_juicer.ops.filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.__init__">(data_juicer.ops.filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.__init__">(data_juicer.ops.filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.__init__">(data_juicer.ops.filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.__init__">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.__init__">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.__init__">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.__init__">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.__init__">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.__init__">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.__init__">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.__init__">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.__init__">(data_juicer.ops.filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.__init__">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.__init__">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.__init__">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.__init__">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.__init__">(data_juicer.ops.filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.__init__">(data_juicer.ops.filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__">(data_juicer.ops.filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.__init__">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.__init__">(data_juicer.ops.filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__">(data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.__init__">(data_juicer.ops.filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__">(data_juicer.ops.filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.__init__">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.__init__">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.__init__">(data_juicer.ops.filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper.__init__">(data_juicer.ops.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">(data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.__init__">(data_juicer.ops.grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">(data_juicer.ops.grouper.naive_grouper.NaiveGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__">(data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.__init__">(data_juicer.ops.grouper.NaiveGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper.__init__">(data_juicer.ops.grouper.NaiveReverseGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.__init__">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.__init__">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">(data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.__init__">(data_juicer.ops.mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.__init__">(data_juicer.ops.mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.__init__">(data_juicer.ops.mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.__init__">(data_juicer.ops.mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.__init__">(data_juicer.ops.mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.__init__">(data_juicer.ops.mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__">(data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.__init__">(data_juicer.ops.mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.__init__">(data_juicer.ops.mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.__init__">(data_juicer.ops.mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.__init__">(data_juicer.ops.mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.__init__">(data_juicer.ops.mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.__init__">(data_juicer.ops.mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.__init__">(data_juicer.ops.mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.__init__">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__">(data_juicer.ops.mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.__init__">(data_juicer.ops.mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">(data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">(data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">(data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">(data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">(data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">(data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.__init__">(data_juicer.ops.mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__">(data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.__init__">(data_juicer.ops.mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.__init__">(data_juicer.ops.mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__">(data_juicer.ops.mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.__init__">(data_juicer.ops.mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">(data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.__init__">(data_juicer.ops.mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">(data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.__init__">(data_juicer.ops.mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.__init__">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.__init__">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__">(data_juicer.ops.mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.__init__">(data_juicer.ops.mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.__init__">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__">(data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__">(data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__">(data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper.__init__">(data_juicer.ops.mapper.QueryIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper.__init__">(data_juicer.ops.mapper.QuerySentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper.__init__">(data_juicer.ops.mapper.QueryTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.__init__">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">(data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">(data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__">(data_juicer.ops.mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.__init__">(data_juicer.ops.mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.__init__">(data_juicer.ops.mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.__init__">(data_juicer.ops.mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__">(data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__">(data_juicer.ops.mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__">(data_juicer.ops.mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.__init__">(data_juicer.ops.mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">(data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.__init__">(data_juicer.ops.mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.__init__">(data_juicer.ops.mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">(data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.__init__">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">(data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">(data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">(data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">(data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">(data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">(data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">(data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">(data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">(data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">(data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__">(data_juicer.ops.mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__">(data_juicer.ops.mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__">(data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__">(data_juicer.ops.mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.__init__">(data_juicer.ops.mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.__init__">(data_juicer.ops.mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__">(data_juicer.ops.mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__">(data_juicer.ops.mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__">(data_juicer.ops.mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__">(data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__">(data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__">(data_juicer.ops.mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__">(data_juicer.ops.mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__">(data_juicer.ops.mapper.VideoTaggingFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__">(data_juicer.ops.mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">(data_juicer.ops.op_fusion.FusedFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.__init__">(data_juicer.ops.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__">(data_juicer.ops.selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__">(data_juicer.ops.selector.random_selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.__init__">(data_juicer.ops.selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.TagsSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__">(data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__">(data_juicer.utils.cache_utils.DatasetCacheControl method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">(data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">(data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">(data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__">(data_juicer.utils.lazy_loader.LazyLoader method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">(data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__">(data_juicer.utils.model_utils.APIModel method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">(data_juicer.utils.registry.Registry method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="A">A</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend">ActorBackend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">add_message() (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters">add_parameters() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename">add_suffix_to_filename() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes">add_suffixes() (in module data_juicer.format.formatter)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator">Aggregator (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio">alnum_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio">alpha_token_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter">AlphanumericFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">(class in data_juicer.ops.filter.alphanumeric_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">analyze() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze">(data_juicer.analysis.DiversityAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze">(data_juicer.analysis.OverallAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list">analyze_resource_util_list() (data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util">analyze_single_resource_util() (data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel">APIModel (class in data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios">aspect_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">assertDatasetEqual() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attribute_descriptions">attribute_descriptions (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">attribute_summary() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attribute_support_texts">attribute_support_texts (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.attributes">attributes (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.audio">audio (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_duration">audio_duration (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr">audio_nmf_snr (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_sizes">audio_sizes (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter">AudioDurationFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">(class in data_juicer.ops.filter.audio_duration_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper">AudioFFmpegWrappedMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">(class in data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter">AudioNMFSNRFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">(class in data_juicer.ops.filter.audio_nmf_snr_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter">AudioSizeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">(class in data_juicer.ops.filter.audio_size_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller">AutoInstaller (class in data_juicer.utils.auto_install_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE">AV_STREAM_THREAD_TYPE (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors">avaliable_detectors (data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors">(data_juicer.ops.mapper.VideoSplitBySceneMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter">AverageLineLengthFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">(class in data_juicer.ops.filter.average_line_length_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.avg_line_length">avg_line_length (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit">avg_split_string_list_under_limit() (in module data_juicer.utils.common_utils)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="B">B</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend">Backend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor">BaseCompressor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">BaseFormatter (class in data_juicer.format.formatter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.batch_meta">batch_meta (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys">BatchMetaKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">build_input() (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input">(data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.build_input">(data_juicer.ops.mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.build_input">(data_juicer.ops.mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.build_input">(data_juicer.ops.mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.build_input">(data_juicer.ops.mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.build_input">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.build_input">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="C">C</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager">CacheCompressManager (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash">calc_minhash() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.calc_minhash">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">calculate_hash() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayVideoDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np">calculate_np() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions">calculate_resized_dimensions() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper">CalibrateQAMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">(class in data_juicer.ops.mapper.calibrate_qa_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper">CalibrateQueryMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">(class in data_juicer.ops.mapper.calibrate_query_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper">CalibrateResponseMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">(class in data_juicer.ops.mapper.calibrate_response_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">call_gpt_vision_api() (in module data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception">catch_map_batches_exception() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception">catch_map_single_exception() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">category_to_hist() (data_juicer.analysis.measure.RelatedTTestMeasure static method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio">char_rep_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter">CharacterRepetitionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">(class in data_juicer.ops.filter.character_repetition_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check">check() (data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">check_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model">check_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">check_ops_to_skip() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">CheckpointManager (class in data_juicer.utils.ckpt_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper">ChineseConvertMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">(class in data_juicer.ops.mapper.chinese_convert_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper">CleanCopyrightMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">(class in data_juicer.ops.mapper.clean_copyright_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper">CleanEmailMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">(class in data_juicer.ops.mapper.clean_email_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper">CleanHtmlMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">(class in data_juicer.ops.mapper.clean_html_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper">CleanIpMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">(class in data_juicer.ops.mapper.clean_ip_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper">CleanLinksMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">(class in data_juicer.ops.mapper.clean_links_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">cleanup_cache_files() (data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files">cleanup_compressed_cache_files() (in module data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.close_video">close_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect">collect() (data_juicer.analysis.collector.TextTokenDistCollector method)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis">ColumnWiseAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">(class in data_juicer.analysis.column_wise_analysis)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress">compress() (data_juicer.utils.compress.BaseCompressor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress">(data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress">(data_juicer.utils.compress.Compressor class method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress">(data_juicer.utils.compress.GzipCompressor static method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress">(data_juicer.utils.compress.Lz4Compressor static method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress">(data_juicer.utils.compress.ZstdCompressor static method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.compress">(in module data_juicer.utils.compress)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressionOff">CompressionOff (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager">CompressManager (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor">Compressor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compressors">compressors (data_juicer.utils.compress.Compressor attribute)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">compute() (data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">(data_juicer.analysis.DiversityAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">compute_flow() (data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">compute_hash() (data_juicer.ops.base_op.Deduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">compute_nmf_snr() (in module data_juicer.ops.filter.audio_nmf_snr_filter)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched">compute_stats_batched() (data_juicer.ops.base_op.Filter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched">(data_juicer.ops.filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched">(data_juicer.ops.filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">(data_juicer.ops.op_fusion.FusedFilter method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single">compute_stats_single() (data_juicer.ops.base_op.Filter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_single">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single">(data_juicer.ops.filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single">(data_juicer.ops.filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single">(data_juicer.ops.filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single">(data_juicer.ops.filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.compute_stats_single">(data_juicer.ops.filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.compute_stats_single">(data_juicer.ops.filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single">(data_juicer.ops.filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.compute_stats_single">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.compute_stats_single">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.compute_stats_single">(data_juicer.ops.filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.compute_stats_single">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single">(data_juicer.ops.filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.compute_stats_single">(data_juicer.ops.filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single">(data_juicer.ops.filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single">(data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single">(data_juicer.ops.filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single">(data_juicer.ops.filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.config_backup">config_backup() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.context">context (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python">convert_arrow_to_python() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict">convert_dict_list_to_list_dict() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list">convert_list_dict_to_dict_list() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.copy_data">copy_data() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists">create_directory_if_not_exists() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">create_replacer() (in module data_juicer.ops.mapper.video_split_by_duration_mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">(in module data_juicer.ops.mapper.video_split_by_key_frame_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure">CrossEntropyMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter">CsvFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">(class in data_juicer.format.csv_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.html#data_juicer.cuda_device_count">cuda_device_count() (in module data_juicer)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds">cut_video_by_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="D">D</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li>
+    data_juicer
+
+      <ul>
+        <li><a href="data_juicer.html#module-data_juicer">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.collector
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.collector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.column_wise_analysis
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.diversity_analysis
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.draw
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.draw">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.measure
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.measure">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.analysis.overall_analysis
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.config
+
+      <ul>
+        <li><a href="data_juicer.config.html#module-data_juicer.config">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.config.config
+
+      <ul>
+        <li><a href="data_juicer.config.html#module-data_juicer.config.config">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.core.monitor
+
+      <ul>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.monitor">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.csv_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.empty_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.empty_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.json_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.load
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.load">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.mixture_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.parquet_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.text_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.tsv_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.entity_attribute_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.meta_tags_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.meta_tags_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.most_relavant_entities_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.nested_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.base_op
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common.helper_func
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common.special_characters
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_minhash_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_simhash_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.image_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_basic_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_document_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_image_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_video_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.video_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.alphanumeric_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_duration_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_nmf_snr_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_size_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.average_line_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.character_repetition_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.flagged_words_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_aesthetics_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_aspect_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_face_count_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_face_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_nsfw_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_pair_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_shape_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_size_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_text_matching_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_text_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_watermark_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.language_id_score_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.maximum_line_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.perplexity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.phrase_grounding_recall_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.special_characters_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.specified_field_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.specified_numeric_field_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.stopwords_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.suffix_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_action_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_entity_dependency_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.token_num_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_aesthetics_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_aspect_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_duration_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_frames_text_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_motion_score_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_motion_score_raft_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_nsfw_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_ocr_area_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_resolution_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_tagging_from_frames_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_watermark_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.word_repetition_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.words_num_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper.key_value_grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper.naive_grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper.naive_reverse_grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_reverse_grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.load
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_qa_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_query_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_response_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.chinese_convert_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_copyright_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_email_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_html_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_ip_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_links_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.dialog_intent_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.dialog_sentiment_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.dialog_sentiment_intensity_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.dialog_topic_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.expand_macro_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_entity_attribute_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_entity_relation_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_event_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_keyword_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_nickname_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_support_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.fix_unicode_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.generate_qa_from_examples_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.generate_qa_from_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_captioning_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_diffusion_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_face_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_tagging_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.nlpaug_en_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.nlpcda_zh_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_qa_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_query_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_response_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.pair_preference_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.punctuation_normalization_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.python_file_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.python_lambda_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.query_intent_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.query_sentiment_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.query_topic_detection_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.relation_identity_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_bibliography_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_comments_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_header_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_long_words_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_non_chinese_character_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_repeat_sentences_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_specific_chars_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_table_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.replace_content_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.sentence_split_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.text_chunk_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_audio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_summarizer_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_video_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_extract_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_face_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">module</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li>
+    data_juicer.ops.mapper.video_remove_watermark_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_resize_aspect_ratio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_resize_resolution_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_duration_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_key_frame_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_scene_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_tagging_from_audio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_tagging_from_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.whitespace_normalization_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.op_fusion
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.frequency_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.random_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.range_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.tags_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.topk_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.tools
+
+      <ul>
+        <li><a href="data_juicer.tools.html#module-data_juicer.tools">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.asset_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.auto_install_mapping
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.auto_install_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.availability_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.cache_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.ckpt_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.common_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.common_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.compress
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.compress">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.constant
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.constant">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.file_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.fingerprint_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.lazy_loader
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.logger_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.mm_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.model_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.process_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.process_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.registry
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.resource_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.unittest_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">module</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">DataJuicerTestCaseBase (class in data_juicer.utils.unittest_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control">dataset_cache_control() (in module data_juicer.utils.cache_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl">DatasetCacheControl (class in data_juicer.utils.cache_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress">decompress() (data_juicer.utils.compress.CacheCompressManager method)</a>
+
+      <ul>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.decompress">(in module data_juicer.utils.compress)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator">Deduplicator (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">DEFAULT_ANALYSIS_PATTERN (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">DEFAULT_ANALYSIS_TEMPLATE (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">DEFAULT_ATTR_PATTERN_TEMPLATE (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">DEFAULT_CANDIDATES_TEMPLATE (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">DEFAULT_COMPLETION_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">DEFAULT_CONTINUE_PROMPT (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">DEFAULT_DEMON_PATTERN (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">DEFAULT_ENTITY_PATTERN (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">DEFAULT_ENTITY_TYPES (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">DEFAULT_EXAMPLE_PROMPT (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">DEFAULT_EXAMPLE_TEMPLATE (data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">DEFAULT_IF_LOOP_PROMPT (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">DEFAULT_INPUT_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN">DEFAULT_INTENSITY_PATTERN (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE">DEFAULT_INTENSITY_TEMPLATE (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN">DEFAULT_LABELS_PATTERN (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE">DEFAULT_LABELS_TEMPLATE (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN">DEFAULT_OUTPUT_PATTERN (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">DEFAULT_OUTPUT_PATTERN_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">DEFAULT_PROMPT_TEMPLATE (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">DEFAULT_QA_PAIR_TEMPLATE (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE">DEFAULT_QUERY_TEMPLATE (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">DEFAULT_RECORD_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">DEFAULT_REFERENCE_TEMPLATE (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">DEFAULT_RELATION_PATTERN (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">DEFAULT_RESPONSE_TEMPLATE (data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">DEFAULT_SUB_DOC_TEMPLATE (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT">DEFAULT_SYSTEM_PROMPT (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.DialogIntentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.DialogSentimentDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.DialogSentimentIntensityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.DialogTopicDetectionMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">DEFAULT_SYSTEM_PROMPT_TEMPLATE (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">DEFAULT_SYSTEM_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE">DEFAULT_TAG_TEMPLATE (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE">DEFAULT_TARGET_TAG_TEMPLATE (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">DEFAULT_TUPLE_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces">detect_faces() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_intent_labels">dialog_intent_labels (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_intent_labels_analysis">dialog_intent_labels_analysis (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity">dialog_sentiment_intensity (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity_analysis">dialog_sentiment_intensity_analysis (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels">dialog_sentiment_labels (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels_analysis">dialog_sentiment_labels_analysis (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_topic_labels">dialog_topic_labels (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.dialog_topic_labels_analysis">dialog_topic_labels_analysis (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper">DialogIntentDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper">(class in data_juicer.ops.mapper.dialog_intent_detection_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper">DialogSentimentDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper">(class in data_juicer.ops.mapper.dialog_sentiment_detection_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper">DialogSentimentIntensityMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper">(class in data_juicer.ops.mapper.dialog_sentiment_intensity_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper">DialogTopicDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper">(class in data_juicer.ops.mapper.dialog_topic_detection_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash">dict_to_hash() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.dispatch">dispatch (data_juicer.utils.fingerprint_utils.Hasher attribute)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.display_config">display_config() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">DiversityAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">(class in data_juicer.analysis.diversity_analysis)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.dj_configs">dj_configs (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator">DocumentDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">(class in data_juicer.ops.deduplicator.document_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">DocumentMinhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">(class in data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">DocumentSimhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">(class in data_juicer.ops.deduplicator.document_simhash_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">draw_box() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap">draw_heatmap() (in module data_juicer.analysis.draw)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">draw_hist() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph">draw_resource_util_graph() (data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">draw_wordcloud() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS">DYNAMIC_FIELDS (data_juicer.core.monitor.Monitor attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="E">E</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">EMPTY_HASH_VALUE (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE">(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">(data_juicer.ops.deduplicator.RayBasicDeduplicator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history">empty_history() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter">EmptyFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter">(class in data_juicer.format.empty_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity">entity (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys.entity_attribute">entity_attribute (data_juicer.utils.constant.BatchMetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_description">entity_description (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_name">entity_name (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.entity_type">entity_type (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">EntityAttributeAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">(class in data_juicer.ops.aggregator.entity_attribute_aggregator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure">EntropyMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.eoc">eoc (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.event_description">event_description (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper">ExpandMacroMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">(class in data_juicer.ops.mapper.expand_macro_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.export_config">export_config() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.export_config">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.extra_configs">extra_configs (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract">extract() (data_juicer.utils.compress.Extractor class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video">extract_audio_from_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames">extract_key_frames() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds">extract_key_frames_by_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">extract_txt_from_docx() (in module data_juicer.format.text_formatter)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">extract_txt_from_pdf() (in module data_juicer.format.text_formatter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly">extract_video_frames_uniformly() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">extract_video_frames_uniformly_by_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper">ExtractEntityAttributeMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">(class in data_juicer.ops.mapper.extract_entity_attribute_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper">ExtractEntityRelationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">(class in data_juicer.ops.mapper.extract_entity_relation_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper">ExtractEventMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">(class in data_juicer.ops.mapper.extract_event_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper">ExtractKeywordMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">(class in data_juicer.ops.mapper.extract_keyword_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper">ExtractNicknameMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">(class in data_juicer.ops.mapper.extract_nickname_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Extractor">Extractor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper">ExtractSupportTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">(class in data_juicer.ops.mapper.extract_support_text_mapper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="F">F</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_counts">face_counts (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_detections">face_detections (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_ratios">face_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields">Fields (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.FileLock">FileLock (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Filter">Filter (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find">filter_with_union_find() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">find() (data_juicer.ops.common.helper_func.UnionFind method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">find_files_with_suffix() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">find_noun_phrases() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper">FixUnicodeMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">(class in data_juicer.ops.mapper.fix_unicode_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio">flagged_words_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter">FlaggedWordFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">(class in data_juicer.ops.filter.flagged_words_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">flush() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.follow_read">follow_read() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">format_cache_file_name() (data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.free_models">free_models() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector">FrequencySpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">(class in data_juicer.ops.selector.frequency_specified_field_selector)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group">fuse_filter_group() (in module data_juicer.ops.op_fusion)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators">fuse_operators() (in module data_juicer.ops.op_fusion)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter">FusedFilter (class in data_juicer.ops.op_fusion)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="G">G</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">generate_dataset() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint">generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper">GenerateQAFromExamplesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">(class in data_juicer.ops.mapper.generate_qa_from_examples_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper">GenerateQAFromTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">(class in data_juicer.ops.mapper.generate_qa_from_text_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get">get() (data_juicer.utils.registry.Registry method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log">get_access_log() (data_juicer.utils.constant.StatsKeysMeta method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link">get_backup_model_link() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">get_caller_name() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count">get_cpu_count() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization">get_cpu_utilization() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video">get_decoded_frames_from_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">get_diversity() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size">get_file_size() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">get_hash_method() (in module data_juicer.ops.deduplicator.image_deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">(in module data_juicer.ops.deduplicator.ray_image_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.get_init_configs">get_init_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.get_init_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds">get_key_frame_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">get_left_process_list() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">get_log_file_path() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory">get_min_cuda_memory() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model">get_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">get_reader() (data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader">(data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">get_row_col() (in module data_juicer.analysis.column_wise_analysis)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">get_sentences_from_document() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens">get_special_tokens() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">get_split_key_frame() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">(data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">get_text_chunks() (data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration">get_video_duration() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">get_words_from_document() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue">getvalue() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper">Grouper (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor">GzipCompressor (class in data_juicer.utils.compress)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="H">H</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.hash">hash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash">hash() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">hash_bytes() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default">hash_default() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher">Hasher (class in data_juicer.utils.fingerprint_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys">HashKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest">hexdigest() (data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">HiddenPrints (class in data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.hook">hook (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="I">I</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.image">image (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores">image_aesthetics_scores (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64">image_byte_to_base64() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_height">image_height (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score">image_nsfw_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity">image_pair_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64">image_path_to_base64() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_sizes">image_sizes (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.image_tags">image_tags (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score">image_text_matching_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity">image_text_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob">image_watermark_prob (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_width">image_width (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter">ImageAestheticsFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">(class in data_juicer.ops.filter.image_aesthetics_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter">ImageAspectRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">(class in data_juicer.ops.filter.image_aspect_ratio_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper">ImageBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">(class in data_juicer.ops.mapper.image_blur_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">ImageCaptioningFromGPT4VMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">(class in data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper">ImageCaptioningMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">(class in data_juicer.ops.mapper.image_captioning_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator">ImageDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">(class in data_juicer.ops.deduplicator.image_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper">ImageDiffusionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">(class in data_juicer.ops.mapper.image_diffusion_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper">ImageFaceBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">(class in data_juicer.ops.mapper.image_face_blur_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter">ImageFaceCountFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">(class in data_juicer.ops.filter.image_face_count_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter">ImageFaceRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">(class in data_juicer.ops.filter.image_face_ratio_filter)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.imagehash">imagehash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter">ImageNSFWFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">(class in data_juicer.ops.filter.image_nsfw_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter">ImagePairSimilarityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">(class in data_juicer.ops.filter.image_pair_similarity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter">ImageShapeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">(class in data_juicer.ops.filter.image_shape_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter">ImageSizeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter">(class in data_juicer.ops.filter.image_size_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper">ImageTaggingMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">(class in data_juicer.ops.mapper.image_tagging_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter">ImageTextMatchingFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">(class in data_juicer.ops.filter.image_text_matching_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter">ImageTextSimilarityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">(class in data_juicer.ops.filter.image_text_similarity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter">ImageWatermarkFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">(class in data_juicer.ops.filter.image_watermark_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.init_configs">init_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.init_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">init_setup_from_cfg() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders">insert_texts_after_placeholders() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install">install() (data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars">InterVars (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.iou">iou() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">is_absolute_path() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op">is_batched_op() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.html#data_juicer.is_cuda_available">is_cuda_available() (in module data_juicer)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.is_float">is_float() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list">is_string_list() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.is_unique">is_unique (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique">is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique">(data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="J">J</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys">JobRequiredKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure">JSDivMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter">JsonFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">(class in data_juicer.format.json_formatter)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="K">K</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper">KeyValueGrouper (class in data_juicer.ops.grouper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">(class in data_juicer.ops.grouper.key_value_grouper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.keyword">keyword (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure">KLDivMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="L">L</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang">lang (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang_score">lang_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter">LanguageIDScoreFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">(class in data_juicer.ops.filter.language_id_score_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader">LazyLoader (class in data_juicer.utils.lazy_loader)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">light_rag_extraction() (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.lines">lines (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list">list() (data_juicer.utils.registry.Registry method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio">load_audio() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios">load_audios() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">load_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context">load_data_with_context() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">load_dataset() (data_juicer.format.empty_formatter.EmptyFormatter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">(data_juicer.format.empty_formatter.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">(data_juicer.format.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">(data_juicer.format.formatter.BaseFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">(data_juicer.format.formatter.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">(data_juicer.format.formatter.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">(data_juicer.format.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">(data_juicer.format.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">(data_juicer.format.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">(data_juicer.format.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">(data_juicer.format.text_formatter.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">(data_juicer.format.TextFormatter method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.format.html#data_juicer.format.load_formatter">load_formatter() (in module data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.load_formatter">(in module data_juicer.format.formatter)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.load.load_formatter">(in module data_juicer.format.load)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image">load_image() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte">load_image_byte() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images">load_images() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte">load_images_byte() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.load_ops">load_ops() (in module data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.load.load_ops">(in module data_juicer.ops.load)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta">load_ops_with_stats_meta() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_video">load_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos">load_videos() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">load_words_asset() (in module data_juicer.utils.asset_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_audios">loaded_audios (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_images">loaded_images (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_videos">loaded_videos (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter">LocalFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">(class in data_juicer.format.formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor">Lz4Compressor (class in data_juicer.utils.compress)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="M">M</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.main_entities">main_entities (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper">Mapper (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.max_line_length">max_line_length (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter">MaximumLineLengthFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">(class in data_juicer.ops.filter.maximum_line_length_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure">Measure (class in data_juicer.analysis.measure)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure">measure() (data_juicer.analysis.measure.CrossEntropyMeasure method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure">(data_juicer.analysis.measure.EntropyMeasure method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure">(data_juicer.analysis.measure.JSDivMeasure method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure">(data_juicer.analysis.measure.KLDivMeasure method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure">(data_juicer.analysis.measure.Measure method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure">(data_juicer.analysis.measure.RelatedTTestMeasure method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge">merge() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.merge_config">merge_config() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.merge_config">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch">merge_op_batch() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge_op_batch">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.meta">meta (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map">meta_map() (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.meta_map">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.meta_name">meta_name (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys">MetaKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator">MetaTagsAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator">(class in data_juicer.ops.aggregator.meta_tags_aggregator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.minhash">minhash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter">MixtureFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">(class in data_juicer.format.mixture_formatter)</a>
+</li>
+      </ul></li>
+      <li>
+    module
+
+      <ul>
+        <li><a href="data_juicer.html#module-data_juicer">data_juicer</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">data_juicer.analysis</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure</a>
+</li>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis</a>
+</li>
+        <li><a href="data_juicer.config.html#module-data_juicer.config">data_juicer.config</a>
+</li>
+        <li><a href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config</a>
+</li>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format">data_juicer.format</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter</a>
+</li>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter</a>
+</li>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops">data_juicer.ops</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">data_juicer.ops.aggregator</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.meta_tags_aggregator">data_juicer.ops.aggregator.meta_tags_aggregator</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator</a>
+</li>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">data_juicer.ops.common</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">data_juicer.ops.deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">data_juicer.ops.filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">data_juicer.ops.grouper</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_reverse_grouper">data_juicer.ops.grouper.naive_reverse_grouper</a>
+</li>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">data_juicer.ops.mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">data_juicer.ops.mapper.dialog_intent_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">data_juicer.ops.mapper.dialog_sentiment_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">data_juicer.ops.mapper.dialog_topic_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper">data_juicer.ops.mapper.query_intent_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">data_juicer.ops.mapper.query_sentiment_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper">data_juicer.ops.mapper.query_topic_detection_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">data_juicer.ops.selector</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector">data_juicer.ops.selector.tags_specified_field_selector</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector</a>
+</li>
+        <li><a href="data_juicer.tools.html#module-data_juicer.tools">data_juicer.tools</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils">data_juicer.utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules">modules (data_juicer.utils.registry.Registry property)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor">Monitor (class in data_juicer.core.monitor)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources">monitor_all_resources() (data_juicer.core.monitor.Monitor method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources">monitor_current_resources() (data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func">monitor_func() (data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.BatchMetaKeys.most_relavant_entities">most_relavant_entities (data_juicer.utils.constant.BatchMetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">MostRelavantEntitiesAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">(class in data_juicer.ops.aggregator.most_relavant_entities_aggregator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.multimodal_data_output_dir">multimodal_data_output_dir (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="N">N</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper">NaiveGrouper (class in data_juicer.ops.grouper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper">(class in data_juicer.ops.grouper.naive_grouper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper">NaiveReverseGrouper (class in data_juicer.ops.grouper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper">(class in data_juicer.ops.grouper.naive_reverse_grouper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.name">name (data_juicer.analysis.measure.CrossEntropyMeasure attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.name">(data_juicer.analysis.measure.EntropyMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.name">(data_juicer.analysis.measure.JSDivMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.name">(data_juicer.analysis.measure.KLDivMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.name">(data_juicer.analysis.measure.Measure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.name">(data_juicer.analysis.measure.RelatedTTestMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name">(data_juicer.utils.registry.Registry property)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list">namespace_to_arg_list() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_access">nested_access() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">NestedAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">(class in data_juicer.ops.aggregator.nested_aggregator)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.nickname">nickname (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper">NlpaugEnMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">(class in data_juicer.ops.mapper.nlpaug_en_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper">NlpcdaZhMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">(class in data_juicer.ops.mapper.nlpcda_zh_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.null_value">null_value (data_juicer.format.empty_formatter.EmptyFormatter property)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value">(data_juicer.format.empty_formatter.RayEmptyFormatter property)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value">(data_juicer.format.EmptyFormatter property)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.null_value">(data_juicer.format.RayEmptyFormatter property)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_action">num_action (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges">num_dependency_edges (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_token">num_token (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_words">num_words (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="O">O</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP">OP (class in data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper">OptimizeQAMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">(class in data_juicer.ops.mapper.optimize_qa_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper">OptimizeQueryMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">(class in data_juicer.ops.mapper.optimize_query_mapper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper">OptimizeResponseMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">(class in data_juicer.ops.mapper.optimize_response_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis">OverallAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">(class in data_juicer.analysis.overall_analysis)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="P">P</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper">PairPreferenceMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">(class in data_juicer.ops.mapper.pair_preference_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter">ParquetFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">(class in data_juicer.format.parquet_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">parse_output() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output">(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.parse_output">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">(data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">(data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.parse_output">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output">(data_juicer.ops.mapper.CalibrateQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output">(data_juicer.ops.mapper.CalibrateResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output">(data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.parse_output">(data_juicer.ops.mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.parse_output">(data_juicer.ops.mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.parse_output">(data_juicer.ops.mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.parse_output">(data_juicer.ops.mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.parse_output">(data_juicer.ops.mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output">(data_juicer.ops.mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">(data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">(data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.parse_output">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output">(data_juicer.ops.mapper.OptimizeQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output">(data_juicer.ops.mapper.OptimizeResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.parse_output">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.parse_output">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi">parse_string_to_roi() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.perplexity">perplexity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter">PerplexityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">(class in data_juicer.ops.filter.perplexity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall">phrase_grounding_recall (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter">PhraseGroundingRecallFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">(class in data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv">pil_to_opencv() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model">prepare_api_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">prepare_converter() (in module data_juicer.ops.mapper.chinese_convert_mapper)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model">prepare_diffusion_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">prepare_fasttext_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model">prepare_huggingface_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">prepare_kenlm_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">prepare_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">prepare_nltk_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier">prepare_opencv_classifier() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model">prepare_recognizeAnything_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">prepare_sentencepiece_for_lang() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.prepare_side_configs">prepare_side_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.prepare_side_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model">prepare_simple_aesthetics_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model">prepare_spacy_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model">prepare_video_blip_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model">prepare_vllm_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">process() (data_juicer.ops.base_op.Deduplicator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.process">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">(data_juicer.ops.base_op.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.process">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.process">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.process">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.process">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper.process">(data_juicer.ops.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">(data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.process">(data_juicer.ops.grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">(data_juicer.ops.grouper.naive_grouper.NaiveGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process">(data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.process">(data_juicer.ops.grouper.NaiveGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveReverseGrouper.process">(data_juicer.ops.grouper.NaiveReverseGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.process">(data_juicer.ops.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process">(data_juicer.ops.selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process">(data_juicer.ops.selector.random_selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.process">(data_juicer.ops.selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">(data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process">(data_juicer.ops.selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process">(data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector.process">(data_juicer.ops.selector.TagsSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process">(data_juicer.ops.selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched">process_batched() (data_juicer.ops.base_op.Filter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.process_batched">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.process_batched">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.process_batched">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.process_batched">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched">(data_juicer.ops.filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.process_batched">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.process_batched">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.process_batched">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.process_batched">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.process_batched">(data_juicer.ops.filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.process_batched">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">(data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.process_batched">(data_juicer.ops.mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched">(data_juicer.ops.mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.process_batched">(data_juicer.ops.mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.process_batched">(data_juicer.ops.mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.process_batched">(data_juicer.ops.mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.process_batched">(data_juicer.ops.mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.process_batched">(data_juicer.ops.mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.process_batched">(data_juicer.ops.mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.process_batched">(data_juicer.ops.mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">(data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">(data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">(data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched">(data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched">(data_juicer.ops.mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched">(data_juicer.ops.mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">(data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.process_batched">(data_juicer.ops.mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">(data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched">(data_juicer.ops.mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched">(data_juicer.ops.mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_batched">(data_juicer.ops.mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_batched">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched">(data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched">(data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched">(data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper.process_batched">(data_juicer.ops.mapper.QueryIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper.process_batched">(data_juicer.ops.mapper.QuerySentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper.process_batched">(data_juicer.ops.mapper.QueryTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">(data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">(data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched">(data_juicer.ops.mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.process_batched">(data_juicer.ops.mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.process_batched">(data_juicer.ops.mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched">(data_juicer.ops.mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched">(data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched">(data_juicer.ops.mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched">(data_juicer.ops.mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched">(data_juicer.ops.mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">(data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.process_batched">(data_juicer.ops.mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.process_batched">(data_juicer.ops.mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">(data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.process_batched">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">(data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">(data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched">(data_juicer.ops.mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched">(data_juicer.ops.mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched">(data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched">(data_juicer.ops.mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched">(data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched">(data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched">(data_juicer.ops.mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched">(data_juicer.ops.op_fusion.FusedFilter method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame">process_each_frame() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.process_single">process_single() (data_juicer.ops.Aggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single">(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.process_single">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.process_single">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.process_single">(data_juicer.ops.filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.process_single">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.process_single">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.process_single">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.process_single">(data_juicer.ops.filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.process_single">(data_juicer.ops.filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.process_single">(data_juicer.ops.filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.process_single">(data_juicer.ops.filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.process_single">(data_juicer.ops.filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.process_single">(data_juicer.ops.filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.process_single">(data_juicer.ops.filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.process_single">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.process_single">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.process_single">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.process_single">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.process_single">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.process_single">(data_juicer.ops.filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.process_single">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.process_single">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.process_single">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.process_single">(data_juicer.ops.filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.process_single">(data_juicer.ops.filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single">(data_juicer.ops.filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.process_single">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.process_single">(data_juicer.ops.filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single">(data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.process_single">(data_juicer.ops.filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single">(data_juicer.ops.filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.process_single">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.process_single">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.process_single">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single">(data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single">(data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single">(data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single">(data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogIntentDetectionMapper.process_single">(data_juicer.ops.mapper.DialogIntentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentDetectionMapper.process_single">(data_juicer.ops.mapper.DialogSentimentDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogSentimentIntensityMapper.process_single">(data_juicer.ops.mapper.DialogSentimentIntensityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.DialogTopicDetectionMapper.process_single">(data_juicer.ops.mapper.DialogTopicDetectionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.process_single">(data_juicer.ops.mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.process_single">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single">(data_juicer.ops.mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">(data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">(data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">(data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.process_single">(data_juicer.ops.mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single">(data_juicer.ops.mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.process_single">(data_juicer.ops.mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.process_single">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.process_single">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_single">(data_juicer.ops.mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_single">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.process_single">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">(data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">(data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">(data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">(data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">(data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">(data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">(data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">(data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single">(data_juicer.ops.mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.process_single">(data_juicer.ops.mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single">(data_juicer.ops.mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single">(data_juicer.ops.mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single">(data_juicer.ops.mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single">(data_juicer.ops.mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single">(data_juicer.ops.mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single">(data_juicer.ops.mapper.VideoTaggingFromFramesMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper">PunctuationNormalizationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">(class in data_juicer.ops.mapper.punctuation_normalization_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper">PythonFileMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">(class in data_juicer.ops.mapper.python_file_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper">PythonLambdaMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">(class in data_juicer.ops.mapper.python_lambda_mapper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="Q">Q</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info">query_cuda_info() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_intent_label">query_intent_label (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_intent_score">query_intent_score (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info">query_mem_info() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">query_most_relavant_entities() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_sentiment_label">query_sentiment_label (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_sentiment_score">query_sentiment_score (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_topic_label">query_topic_label (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.query_topic_score">query_topic_score (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryIntentDetectionMapper">QueryIntentDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper">(class in data_juicer.ops.mapper.query_intent_detection_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QuerySentimentDetectionMapper">QuerySentimentDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper">(class in data_juicer.ops.mapper.query_sentiment_detection_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.QueryTopicDetectionMapper">QueryTopicDetectionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper">(class in data_juicer.ops.mapper.query_topic_detection_mapper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="R">R</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">random_sample() (data_juicer.format.mixture_formatter.MixtureFormatter class method)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">(data_juicer.format.MixtureFormatter class method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector">RandomSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector">(class in data_juicer.ops.selector.random_selector)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector">RangeSpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">(class in data_juicer.ops.selector.range_specified_field_selector)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator">RayBasicDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">(class in data_juicer.ops.deduplicator.ray_basic_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator">RayBTSMinhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator">(class in data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator">RayDocumentDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">(class in data_juicer.ops.deduplicator.ray_document_deduplicator)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.__init__">(data_juicer.format.CsvFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter">RayEmptyFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter">(class in data_juicer.format.empty_formatter)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__">(data_juicer.format.EmptyFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator">RayImageDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">(class in data_juicer.ops.deduplicator.ray_image_deduplicator)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.__init__">(data_juicer.format.JsonFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator">RayVideoDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">(class in data_juicer.ops.deduplicator.ray_video_deduplicator)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.__init__">(data_juicer.format.LocalFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">record() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__">(data_juicer.format.MixtureFormatter method)</a>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">recursive_summary() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">(data_juicer.ops.aggregator.NestedAggregator method)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__">(data_juicer.format.ParquetFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">recursively_chunk() (data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk">(data_juicer.ops.mapper.TextChunkMapper method)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__">(data_juicer.format.RayEmptyFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">redirect_sys_output() (in module data_juicer.utils.logger_utils)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__">(data_juicer.format.RemoteFormatter method)</a>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend">RedisBackend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.__init__">(data_juicer.format.TextFormatter method)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">refine_single_column() (data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">(data_juicer.analysis.OverallAnalysis method)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.__init__">(data_juicer.format.TsvFormatter method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.refined_words">refined_words (data_juicer.utils.constant.InterVars attribute)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">register_module() (data_juicer.utils.registry.Registry method)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.__init__">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry">Registry (class in data_juicer.utils.registry)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure">RelatedTTestMeasure (class in data_juicer.analysis.measure)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation">relation (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_description">relation_description (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_keywords">relation_keywords (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relation_strength">relation_strength (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper">RelationIdentityMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">(class in data_juicer.ops.mapper.relation_identity_mapper)</a>
 </li>
       </ul></li>
-  </ul></td>
-</tr></table>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.relevant_characters">relevant_characters (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter">RemoteFormatter (class in data_juicer.format)</a>
 
-<h2 id="A">A</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">(class in data_juicer.format.formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters">remove_extra_parameters() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens">remove_non_special_tokens() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">remove_punctuation() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+  </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">analyze() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens">remove_special_tokens() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper">RemoveBibliographyMapper (class in data_juicer.ops.mapper)</a>
 
       <ul>
-        <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze">(data_juicer.analysis.DiversityAnalysis method)</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">(class in data_juicer.ops.mapper.remove_bibliography_mapper)</a>
 </li>
-        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze">(data_juicer.analysis.OverallAnalysis method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper">RemoveCommentsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">(class in data_juicer.ops.mapper.remove_comments_mapper)</a>
 </li>
       </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">attribute_summary() (data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper">RemoveHeaderMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">(class in data_juicer.ops.mapper.remove_header_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper">RemoveLongWordsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">(class in data_juicer.ops.mapper.remove_long_words_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper">RemoveNonChineseCharacterlMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">(class in data_juicer.ops.mapper.remove_non_chinese_character_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper">RemoveRepeatSentencesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">(class in data_juicer.ops.mapper.remove_repeat_sentences_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper">RemoveSpecificCharsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">(class in data_juicer.ops.mapper.remove_specific_chars_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper">RemoveTableTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">(class in data_juicer.ops.mapper.remove_table_text_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper">RemoveWordsWithIncorrectSubstringsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">(class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">replace_func() (in module data_juicer.ops.mapper.video_split_by_scene_mapper)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper">ReplaceContentMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">(class in data_juicer.ops.mapper.replace_content_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">rescale() (in module data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.resource_monitor">resource_monitor() (in module data_juicer.core.monitor)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.role_relation">role_relation (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.run">run() (data_juicer.ops.Aggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.run">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.run">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.run">(data_juicer.ops.base_op.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.run">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run">(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.run">(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.run">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper.run">(data_juicer.ops.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.run">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.run">(data_juicer.ops.Selector method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">run_ner() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">run_single_op() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np">runtime_np() (data_juicer.ops.base_op.OP method)</a>
 </li>
   </ul></td>
 </tr></table>
 
-<h2 id="C">C</h2>
+<h2 id="S">S</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis">ColumnWiseAnalysis (class in data_juicer.analysis)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.sampled_frames">sampled_frames (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">save_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Selector">Selector (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper">SentenceSplitMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">(class in data_juicer.ops.mapper.sentence_split_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">separate_signal_noise() (in module data_juicer.ops.filter.audio_nmf_snr_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag">set_clear_model_flag() (in module data_juicer.utils.unittest_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">setup_logger() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">setup_model() (data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp">setup_mp() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">setUpClass() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word">(data_juicer.ops.mapper.RemoveLongWordsMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.simhash">simhash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes">size_to_bytes() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">sort_op_by_types_and_names() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.source_entity">source_entity (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_file">source_file (data_juicer.utils.constant.Fields attribute)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">compute() (data_juicer.analysis.DiversityAnalysis method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio">special_char_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter">SpecialCharactersFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">(class in data_juicer.ops.filter.special_characters_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens">SpecialTokens (class in data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter">SpecifiedFieldFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">(class in data_juicer.ops.filter.specified_field_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter">SpecifiedNumericFieldFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">(class in data_juicer.ops.filter.specified_numeric_field_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">split_on_newline_tab_whitespace() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">split_on_whitespace() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter">CsvFormatter (class in data_juicer.format)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">split_sentence() (in module data_juicer.ops.mapper.remove_repeat_sentences_mapper)</a>
 </li>
-      <li><a href="data_juicer.html#data_juicer.cuda_device_count">cuda_device_count() (in module data_juicer)</a>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">split_text_by_punctuation() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation">(in module data_juicer.ops.common.helper_func)</a>
 </li>
-  </ul></td>
-</tr></table>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">split_videos_by_duration() (data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
 
-<h2 id="D">D</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li>
-    data_juicer
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration">(data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.stats">stats (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">stats_to_hist() (data_juicer.analysis.measure.RelatedTTestMeasure static method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number">stats_to_number() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeys">StatsKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant">StatsKeysConstant (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta">StatsKeysMeta (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio">stopwords_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter">StopWordsFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.html#module-data_juicer">module</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">(class in data_juicer.ops.filter.stopwords_filter)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.analysis
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY">STRATEGY (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper attribute)</a>
 
       <ul>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">module</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY">(data_juicer.ops.mapper.VideoResizeAspectRatioMapper attribute)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.config
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">StreamToLoguru (class in data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.strip">strip() (in module data_juicer.ops.common)</a>
 
       <ul>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">module</a>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">(in module data_juicer.ops.common.helper_func)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.format
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.suffix">suffix (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">SUFFIXES (data_juicer.format.csv_formatter.CsvFormatter attribute)</a>
 
       <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">module</a>
+        <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES">(data_juicer.format.CsvFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES">(data_juicer.format.empty_formatter.EmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES">(data_juicer.format.empty_formatter.RayEmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.SUFFIXES">(data_juicer.format.EmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">(data_juicer.format.json_formatter.JsonFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.SUFFIXES">(data_juicer.format.JsonFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">(data_juicer.format.parquet_formatter.ParquetFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.SUFFIXES">(data_juicer.format.ParquetFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.SUFFIXES">(data_juicer.format.RayEmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES">(data_juicer.format.text_formatter.TextFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.SUFFIXES">(data_juicer.format.TextFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">(data_juicer.format.tsv_formatter.TsvFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.SUFFIXES">(data_juicer.format.TsvFormatter attribute)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.ops.aggregator
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter">SuffixFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">module</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">(class in data_juicer.ops.filter.suffix_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.support_text">support_text (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="T">T</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TagsSpecifiedFieldSelector">TagsSpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector">(class in data_juicer.ops.selector.tags_specified_field_selector)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.target_entity">target_entity (data_juicer.utils.constant.MetaKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">tearDown() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">tearDownClass() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG">TEST_TAG() (in module data_juicer.utils.unittest_utils)</a>
 </li>
-      </ul></li>
-      <li>
-    data_juicer.ops.common
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.text_len">text_len (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter">TextActionFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">module</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter">(class in data_juicer.ops.filter.text_action_filter)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.tools
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper">TextChunkMapper (class in data_juicer.ops.mapper)</a>
 
       <ul>
-        <li><a href="data_juicer.tools.html#module-data_juicer.tools">module</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">(class in data_juicer.ops.mapper.text_chunk_mapper)</a>
 </li>
       </ul></li>
-      <li>
-    data_juicer.utils
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter">TextEntityDependencyFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">module</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">(class in data_juicer.ops.filter.text_entity_dependency_filter)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">DEFAULT_EXAMPLE_PROMPT (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
-</li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">DEFAULT_INPUT_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter">TextFormatter (class in data_juicer.format)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">(class in data_juicer.format.text_formatter)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN">DEFAULT_OUTPUT_PATTERN (data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter">TextLengthFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">(class in data_juicer.ops.filter.text_length_filter)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">DEFAULT_OUTPUT_PATTERN_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector">TextTokenDistCollector (class in data_juicer.analysis.collector)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">DEFAULT_SUB_DOC_TEMPLATE (data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds">timecode_string_to_seconds() (in module data_juicer.utils.mm_utils)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT">DEFAULT_SYSTEM_PROMPT (data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter">TokenNumFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter">(class in data_juicer.ops.filter.token_num_filter)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">DEFAULT_SYSTEM_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector">TopkSpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">(class in data_juicer.ops.selector.topk_specified_field_selector)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE">DEFAULT_TAG_TEMPLATE (data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE">DEFAULT_TARGET_TAG_TEMPLATE (data_juicer.ops.aggregator.MetaTagsAggregator attribute)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">DiversityAnalysis (class in data_juicer.analysis)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename">transfer_filename() (in module data_juicer.utils.file_utils)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">draw_box() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">triangle_area() (in module data_juicer.ops.filter.video_ocr_area_ratio_filter)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">draw_hist() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">draw_wordcloud() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter">TsvFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">(class in data_juicer.format.tsv_formatter)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
-<h2 id="E">E</h2>
+<h2 id="U">U</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter">EmptyFormatter (class in data_juicer.format)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.uid">uid (data_juicer.utils.constant.HashKeys attribute)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">EntityAttributeAggregator (class in data_juicer.ops.aggregator)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.unify_format">unify_format() (in module data_juicer.format.formatter)</a>
 </li>
-      <li><a href="data_juicer.config.html#data_juicer.config.export_config">export_config() (in module data_juicer.config)</a>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">union() (data_juicer.ops.common.helper_func.UnionFind method)</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="G">G</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.get_init_configs">get_init_configs() (in module data_juicer.config)</a>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">UnionFind (class in data_juicer.ops.common.helper_func)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update">update() (data_juicer.utils.fingerprint_utils.Hasher method)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">get_sentences_from_document() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars">update_ds_cache_dir_and_related_vars() (in module data_juicer.config.config)</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">get_words_from_document() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint">update_fingerprint() (in module data_juicer.utils.fingerprint_utils)</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="I">I</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.init_configs">init_configs() (in module data_juicer.config)</a>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_op_attr">update_op_attr() (in module data_juicer.config.config)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.html#data_juicer.is_cuda_available">is_cuda_available() (in module data_juicer)</a>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_op_process">update_op_process() (in module data_juicer.config.config)</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="J">J</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter">JsonFormatter (class in data_juicer.format)</a>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda">use_cuda() (data_juicer.ops.base_op.OP method)</a>
 </li>
   </ul></td>
 </tr></table>
 
-<h2 id="L">L</h2>
+<h2 id="V">V</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">load_dataset() (data_juicer.format.EmptyFormatter method)</a>
-
-      <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">(data_juicer.format.LocalFormatter method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.video">video (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">(data_juicer.format.MixtureFormatter method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score">video_aesthetic_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">(data_juicer.format.RayEmptyFormatter method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios">video_aspect_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">(data_juicer.format.RemoteFormatter method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_audio_tags">video_audio_tags (data_juicer.utils.constant.MetaKeys attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">(data_juicer.format.TextFormatter method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_duration">video_duration (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.load_formatter">load_formatter() (in module data_juicer.format)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_frame_tags">video_frame_tags (data_juicer.utils.constant.MetaKeys attribute)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter">LocalFormatter (class in data_juicer.format)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.MetaKeys.video_frames">video_frames (data_juicer.utils.constant.MetaKeys attribute)</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="M">M</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.merge_config">merge_config() (in module data_juicer.config)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score">video_frames_aesthetics_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity">video_frames_text_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.meta_map">meta_map() (data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_height">video_height (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator">MetaTagsAggregator (class in data_juicer.ops.aggregator)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_motion_score">video_motion_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter">MixtureFormatter (class in data_juicer.format)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score">video_nsfw_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-      <li>
-    module
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio">video_ocr_area_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob">video_watermark_prob (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_width">video_width (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter">VideoAestheticsFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.html#module-data_juicer">data_juicer</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">(class in data_juicer.ops.filter.video_aesthetics_filter)</a>
 </li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">data_juicer.analysis</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter">VideoAspectRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">(class in data_juicer.ops.filter.video_aspect_ratio_filter)</a>
 </li>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">data_juicer.config</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper">VideoCaptioningFromAudioMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">(class in data_juicer.ops.mapper.video_captioning_from_audio_mapper)</a>
 </li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">data_juicer.format</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper">VideoCaptioningFromFramesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">(class in data_juicer.ops.mapper.video_captioning_from_frames_mapper)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">data_juicer.ops.aggregator</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper">VideoCaptioningFromSummarizerMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">(class in data_juicer.ops.mapper.video_captioning_from_summarizer_mapper)</a>
 </li>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">data_juicer.ops.common</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper">VideoCaptioningFromVideoMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">(class in data_juicer.ops.mapper.video_captioning_from_video_mapper)</a>
 </li>
-        <li><a href="data_juicer.tools.html#module-data_juicer.tools">data_juicer.tools</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture">VideoCapture() (in module data_juicer.ops.filter.video_motion_score_filter)</a>
 </li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">data_juicer.utils</a>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator">VideoDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">(class in data_juicer.ops.deduplicator.video_deduplicator)</a>
 </li>
       </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">MostRelavantEntitiesAggregator (class in data_juicer.ops.aggregator)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter">VideoDurationFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">(class in data_juicer.ops.filter.video_duration_filter)</a>
 </li>
-  </ul></td>
-</tr></table>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper">VideoExtractFramesMapper (class in data_juicer.ops.mapper)</a>
 
-<h2 id="N">N</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">NestedAggregator (class in data_juicer.ops.aggregator)</a>
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">(class in data_juicer.ops.mapper.video_extract_frames_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper">VideoFaceBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">(class in data_juicer.ops.mapper.video_face_blur_mapper)</a>
 </li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value">null_value (data_juicer.format.EmptyFormatter property)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper">VideoFFmpegWrappedMapper (class in data_juicer.ops.mapper)</a>
 
       <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.null_value">(data_juicer.format.RayEmptyFormatter property)</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">(class in data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper)</a>
 </li>
       </ul></li>
-  </ul></td>
-</tr></table>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter">VideoFramesTextSimilarityFilter (class in data_juicer.ops.filter)</a>
 
-<h2 id="O">O</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis">OverallAnalysis (class in data_juicer.analysis)</a>
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">(class in data_juicer.ops.filter.video_frames_text_similarity_filter)</a>
 </li>
-  </ul></td>
-</tr></table>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.videohash">videohash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter">VideoMotionScoreFilter (class in data_juicer.ops.filter)</a>
 
-<h2 id="P">P</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter">ParquetFormatter (class in data_juicer.format)</a>
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">(class in data_juicer.ops.filter.video_motion_score_filter)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">parse_output() (data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter">VideoMotionScoreRaftFilter (class in data_juicer.ops.filter)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.parse_output">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">(class in data_juicer.ops.filter.video_motion_score_raft_filter)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter">VideoNSFWFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">(class in data_juicer.ops.filter.video_nsfw_filter)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter">VideoOcrAreaRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">(class in data_juicer.ops.filter.video_ocr_area_ratio_filter)</a>
 </li>
       </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.prepare_side_configs">prepare_side_configs() (in module data_juicer.config)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper">VideoRemoveWatermarkMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">(class in data_juicer.ops.mapper.video_remove_watermark_mapper)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single">process_single() (data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper">VideoResizeAspectRatioMapper (class in data_juicer.ops.mapper)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MetaTagsAggregator.process_single">(data_juicer.ops.aggregator.MetaTagsAggregator method)</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">(class in data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper">VideoResizeResolutionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">(class in data_juicer.ops.mapper.video_resize_resolution_mapper)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter">VideoResolutionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">(class in data_juicer.ops.filter.video_resolution_filter)</a>
 </li>
       </ul></li>
-  </ul></td>
-</tr></table>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper">VideoSplitByDurationMapper (class in data_juicer.ops.mapper)</a>
 
-<h2 id="Q">Q</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">query_most_relavant_entities() (data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">(class in data_juicer.ops.mapper.video_split_by_duration_mapper)</a>
 </li>
-  </ul></td>
-</tr></table>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper">VideoSplitByKeyFrameMapper (class in data_juicer.ops.mapper)</a>
 
-<h2 id="R">R</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">random_sample() (data_juicer.format.MixtureFormatter class method)</a>
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">(class in data_juicer.ops.mapper.video_split_by_key_frame_mapper)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter">RayEmptyFormatter (class in data_juicer.format)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper">VideoSplitBySceneMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">(class in data_juicer.ops.mapper.video_split_by_scene_mapper)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">recursive_summary() (data_juicer.ops.aggregator.NestedAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper">VideoTaggingFromAudioMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">(class in data_juicer.ops.mapper.video_tagging_from_audio_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter">VideoTaggingFromFramesFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">(class in data_juicer.ops.filter.video_tagging_from_frames_filter)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">refine_single_column() (data_juicer.analysis.OverallAnalysis method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper">VideoTaggingFromFramesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">(class in data_juicer.ops.mapper.video_tagging_from_frames_mapper)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter">RemoteFormatter (class in data_juicer.format)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter">VideoWatermarkFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">(class in data_juicer.ops.filter.video_watermark_filter)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
-<h2 id="S">S</h2>
+<h2 id="W">W</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">split_on_newline_tab_whitespace() (in module data_juicer.ops.common)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">split_on_whitespace() (in module data_juicer.ops.common)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">split_text_by_punctuation() (in module data_juicer.ops.common)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.strip">strip() (in module data_juicer.ops.common)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES">SUFFIXES (data_juicer.format.CsvFormatter attribute)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper">WhitespaceNormalizationMapper (class in data_juicer.ops.mapper)</a>
 
       <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.SUFFIXES">(data_juicer.format.EmptyFormatter attribute)</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">(class in data_juicer.ops.mapper.whitespace_normalization_mapper)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.SUFFIXES">(data_juicer.format.JsonFormatter attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio">word_rep_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.SUFFIXES">(data_juicer.format.ParquetFormatter attribute)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter">WordRepetitionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">(class in data_juicer.ops.filter.word_repetition_filter)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.SUFFIXES">(data_juicer.format.RayEmptyFormatter attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.words">words (data_juicer.utils.constant.InterVars attribute)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.SUFFIXES">(data_juicer.format.TextFormatter attribute)</a>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation">words_augmentation() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">(in module data_juicer.ops.common.helper_func)</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.SUFFIXES">(data_juicer.format.TsvFormatter attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement">words_refinement() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">(in module data_juicer.ops.common.helper_func)</a>
 </li>
       </ul></li>
-  </ul></td>
-</tr></table>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter">WordsNumFilter (class in data_juicer.ops.filter)</a>
 
-<h2 id="T">T</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter">TextFormatter (class in data_juicer.format)</a>
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter">(class in data_juicer.ops.filter.words_num_filter)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter">TsvFormatter (class in data_juicer.format)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">write() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
 </li>
   </ul></td>
 </tr></table>
 
-<h2 id="W">W</h2>
+<h2 id="Z">Z</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation">words_augmentation() (in module data_juicer.ops.common)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement">words_refinement() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor">ZstdCompressor (class in data_juicer.utils.compress)</a>
 </li>
   </ul></td>
 </tr></table>
diff --git a/index.html b/index.html
index 01cbe3942..95d077a36 100644
--- a/index.html
+++ b/index.html
@@ -12,12 +12,12 @@
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.core" href="data_juicer.core.html" /> 
+    <link rel="next" title="data_juicer.core package" href="data_juicer.core.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -41,16 +41,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,50 +85,215 @@ <h2>Tutorial<a class="headerlink" href="#tutorial" title="Link to this heading">
 <div class="toctree-wrapper compound">
 <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-adapter-module">data_juicer.core.adapter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-analyzer-module">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-data-module">data_juicer.core.data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-executor-module">data_juicer.core.executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-exporter-module">data_juicer.core.exporter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-data-module">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-executor-module">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-tracer-module">data_juicer.core.tracer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-contents">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper">data_juicer.ops.mapper.dialog_intent_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper">data_juicer.ops.mapper.dialog_sentiment_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper">data_juicer.ops.mapper.dialog_topic_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper">data_juicer.ops.mapper.query_intent_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper">data_juicer.ops.mapper.query_sentiment_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper">data_juicer.ops.mapper.query_topic_detection_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector">data_juicer.ops.selector.tags_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
 </ul>
 </li>
 </ul>
@@ -148,7 +313,7 @@ <h1>Indices and Tables<a class="headerlink" href="#indices-and-tables" title="Li
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.core.html" class="btn btn-neutral float-right" title="data_juicer.core" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.core.html" class="btn btn-neutral float-right" title="data_juicer.core package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/modules.html b/modules.html
index 3741f75f3..eca040269 100644
--- a/modules.html
+++ b/modules.html
@@ -12,7 +12,7 @@
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -80,9 +80,97 @@
 <h1>data_juicer<a class="headerlink" href="#data-juicer" title="Link to this heading">¶</a></h1>
 <div class="toctree-wrapper compound">
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#data_juicer.cuda_device_count"><code class="docutils literal notranslate"><span class="pre">cuda_device_count()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#data_juicer.is_cuda_available"><code class="docutils literal notranslate"><span class="pre">is_cuda_available()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-adapter-module">data_juicer.core.adapter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-analyzer-module">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-data-module">data_juicer.core.data module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-executor-module">data_juicer.core.executor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-exporter-module">data_juicer.core.exporter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-data-module">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-ray-executor-module">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data-juicer-core-tracer-module">data_juicer.core.tracer module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-contents">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.tools.html">data_juicer.tools package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.tools.html#module-data_juicer.tools">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.html#data_juicer.cuda_device_count"><code class="docutils literal notranslate"><span class="pre">cuda_device_count()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.html#data_juicer.is_cuda_available"><code class="docutils literal notranslate"><span class="pre">is_cuda_available()</span></code></a></li>
+</ul>
+</li>
 </ul>
 </li>
 </ul>
diff --git a/objects.inv b/objects.inv
index ab77d8291..b05009f06 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/py-modindex.html b/py-modindex.html
index 0d531edc0..9c82f827c 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -11,7 +11,7 @@
 
   
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -42,16 +42,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,21 +99,136 @@ <h1>Python Module Index</h1>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.analysis.html#module-data_juicer.analysis"><code class="xref">data_juicer.analysis</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.collector"><code class="xref">data_juicer.analysis.collector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis"><code class="xref">data_juicer.analysis.column_wise_analysis</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis"><code class="xref">data_juicer.analysis.diversity_analysis</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.draw"><code class="xref">data_juicer.analysis.draw</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.measure"><code class="xref">data_juicer.analysis.measure</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis"><code class="xref">data_juicer.analysis.overall_analysis</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.config.html#module-data_juicer.config"><code class="xref">data_juicer.config</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.config.html#module-data_juicer.config.config"><code class="xref">data_juicer.config.config</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.monitor"><code class="xref">data_juicer.core.monitor</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.format.html#module-data_juicer.format"><code class="xref">data_juicer.format</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.csv_formatter"><code class="xref">data_juicer.format.csv_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.empty_formatter"><code class="xref">data_juicer.format.empty_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.formatter"><code class="xref">data_juicer.format.formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.json_formatter"><code class="xref">data_juicer.format.json_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.load"><code class="xref">data_juicer.format.load</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter"><code class="xref">data_juicer.format.mixture_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter"><code class="xref">data_juicer.format.parquet_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.text_formatter"><code class="xref">data_juicer.format.text_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter"><code class="xref">data_juicer.format.tsv_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops"><code class="xref">data_juicer.ops</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator"><code class="xref">data_juicer.ops.aggregator</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator"><code class="xref">data_juicer.ops.aggregator.entity_attribute_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.meta_tags_aggregator"><code class="xref">data_juicer.ops.aggregator.meta_tags_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator"><code class="xref">data_juicer.ops.aggregator.most_relavant_entities_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator"><code class="xref">data_juicer.ops.aggregator.nested_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.base_op"><code class="xref">data_juicer.ops.base_op</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
@@ -122,12 +237,817 @@ <h1>Python Module Index</h1>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.tools.html#module-data_juicer.tools"><code class="xref">data_juicer.tools</code></a></td><td>
+       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func"><code class="xref">data_juicer.ops.common.helper_func</code></a></td><td>
        <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils"><code class="xref">data_juicer.utils</code></a></td><td>
+       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters"><code class="xref">data_juicer.ops.common.special_characters</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator"><code class="xref">data_juicer.ops.deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_minhash_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_simhash_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator"><code class="xref">data_juicer.ops.deduplicator.image_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_basic_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_document_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_image_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_video_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator"><code class="xref">data_juicer.ops.deduplicator.video_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter"><code class="xref">data_juicer.ops.filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter"><code class="xref">data_juicer.ops.filter.alphanumeric_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter"><code class="xref">data_juicer.ops.filter.audio_duration_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter"><code class="xref">data_juicer.ops.filter.audio_nmf_snr_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter"><code class="xref">data_juicer.ops.filter.audio_size_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter"><code class="xref">data_juicer.ops.filter.average_line_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter"><code class="xref">data_juicer.ops.filter.character_repetition_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter"><code class="xref">data_juicer.ops.filter.flagged_words_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter"><code class="xref">data_juicer.ops.filter.image_aesthetics_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter"><code class="xref">data_juicer.ops.filter.image_aspect_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter"><code class="xref">data_juicer.ops.filter.image_face_count_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter"><code class="xref">data_juicer.ops.filter.image_face_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter"><code class="xref">data_juicer.ops.filter.image_nsfw_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter"><code class="xref">data_juicer.ops.filter.image_pair_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter"><code class="xref">data_juicer.ops.filter.image_shape_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter"><code class="xref">data_juicer.ops.filter.image_size_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter"><code class="xref">data_juicer.ops.filter.image_text_matching_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter"><code class="xref">data_juicer.ops.filter.image_text_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter"><code class="xref">data_juicer.ops.filter.image_watermark_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter"><code class="xref">data_juicer.ops.filter.language_id_score_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter"><code class="xref">data_juicer.ops.filter.maximum_line_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter"><code class="xref">data_juicer.ops.filter.perplexity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter"><code class="xref">data_juicer.ops.filter.phrase_grounding_recall_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter"><code class="xref">data_juicer.ops.filter.special_characters_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter"><code class="xref">data_juicer.ops.filter.specified_field_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter"><code class="xref">data_juicer.ops.filter.specified_numeric_field_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter"><code class="xref">data_juicer.ops.filter.stopwords_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter"><code class="xref">data_juicer.ops.filter.suffix_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter"><code class="xref">data_juicer.ops.filter.text_action_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter"><code class="xref">data_juicer.ops.filter.text_entity_dependency_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter"><code class="xref">data_juicer.ops.filter.text_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter"><code class="xref">data_juicer.ops.filter.token_num_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter"><code class="xref">data_juicer.ops.filter.video_aesthetics_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter"><code class="xref">data_juicer.ops.filter.video_aspect_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter"><code class="xref">data_juicer.ops.filter.video_duration_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter"><code class="xref">data_juicer.ops.filter.video_frames_text_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter"><code class="xref">data_juicer.ops.filter.video_motion_score_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter"><code class="xref">data_juicer.ops.filter.video_motion_score_raft_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter"><code class="xref">data_juicer.ops.filter.video_nsfw_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter"><code class="xref">data_juicer.ops.filter.video_ocr_area_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter"><code class="xref">data_juicer.ops.filter.video_resolution_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter"><code class="xref">data_juicer.ops.filter.video_tagging_from_frames_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter"><code class="xref">data_juicer.ops.filter.video_watermark_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter"><code class="xref">data_juicer.ops.filter.word_repetition_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter"><code class="xref">data_juicer.ops.filter.words_num_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper"><code class="xref">data_juicer.ops.grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper"><code class="xref">data_juicer.ops.grouper.key_value_grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper"><code class="xref">data_juicer.ops.grouper.naive_grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_reverse_grouper"><code class="xref">data_juicer.ops.grouper.naive_reverse_grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.load"><code class="xref">data_juicer.ops.load</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper"><code class="xref">data_juicer.ops.mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper"><code class="xref">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_qa_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_query_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_response_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper"><code class="xref">data_juicer.ops.mapper.chinese_convert_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper"><code class="xref">data_juicer.ops.mapper.clean_copyright_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper"><code class="xref">data_juicer.ops.mapper.clean_email_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper"><code class="xref">data_juicer.ops.mapper.clean_html_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper"><code class="xref">data_juicer.ops.mapper.clean_ip_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper"><code class="xref">data_juicer.ops.mapper.clean_links_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_intent_detection_mapper"><code class="xref">data_juicer.ops.mapper.dialog_intent_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper"><code class="xref">data_juicer.ops.mapper.dialog_sentiment_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper"><code class="xref">data_juicer.ops.mapper.dialog_sentiment_intensity_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.dialog_topic_detection_mapper"><code class="xref">data_juicer.ops.mapper.dialog_topic_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper"><code class="xref">data_juicer.ops.mapper.expand_macro_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper"><code class="xref">data_juicer.ops.mapper.extract_entity_attribute_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper"><code class="xref">data_juicer.ops.mapper.extract_entity_relation_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper"><code class="xref">data_juicer.ops.mapper.extract_event_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper"><code class="xref">data_juicer.ops.mapper.extract_keyword_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper"><code class="xref">data_juicer.ops.mapper.extract_nickname_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper"><code class="xref">data_juicer.ops.mapper.extract_support_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper"><code class="xref">data_juicer.ops.mapper.fix_unicode_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper"><code class="xref">data_juicer.ops.mapper.generate_qa_from_examples_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper"><code class="xref">data_juicer.ops.mapper.generate_qa_from_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper"><code class="xref">data_juicer.ops.mapper.image_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper"><code class="xref">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper"><code class="xref">data_juicer.ops.mapper.image_captioning_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper"><code class="xref">data_juicer.ops.mapper.image_diffusion_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper"><code class="xref">data_juicer.ops.mapper.image_face_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper"><code class="xref">data_juicer.ops.mapper.image_tagging_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper"><code class="xref">data_juicer.ops.mapper.nlpaug_en_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper"><code class="xref">data_juicer.ops.mapper.nlpcda_zh_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper"><code class="xref">data_juicer.ops.mapper.optimize_qa_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper"><code class="xref">data_juicer.ops.mapper.optimize_query_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper"><code class="xref">data_juicer.ops.mapper.optimize_response_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper"><code class="xref">data_juicer.ops.mapper.pair_preference_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper"><code class="xref">data_juicer.ops.mapper.punctuation_normalization_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper"><code class="xref">data_juicer.ops.mapper.python_file_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper"><code class="xref">data_juicer.ops.mapper.python_lambda_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_intent_detection_mapper"><code class="xref">data_juicer.ops.mapper.query_intent_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_sentiment_detection_mapper"><code class="xref">data_juicer.ops.mapper.query_sentiment_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.query_topic_detection_mapper"><code class="xref">data_juicer.ops.mapper.query_topic_detection_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper"><code class="xref">data_juicer.ops.mapper.relation_identity_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper"><code class="xref">data_juicer.ops.mapper.remove_bibliography_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper"><code class="xref">data_juicer.ops.mapper.remove_comments_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper"><code class="xref">data_juicer.ops.mapper.remove_header_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper"><code class="xref">data_juicer.ops.mapper.remove_long_words_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper"><code class="xref">data_juicer.ops.mapper.remove_non_chinese_character_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper"><code class="xref">data_juicer.ops.mapper.remove_repeat_sentences_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper"><code class="xref">data_juicer.ops.mapper.remove_specific_chars_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper"><code class="xref">data_juicer.ops.mapper.remove_table_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"><code class="xref">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper"><code class="xref">data_juicer.ops.mapper.replace_content_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper"><code class="xref">data_juicer.ops.mapper.sentence_split_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper"><code class="xref">data_juicer.ops.mapper.text_chunk_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_audio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_video_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_extract_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper"><code class="xref">data_juicer.ops.mapper.video_face_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper"><code class="xref">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper"><code class="xref">data_juicer.ops.mapper.video_remove_watermark_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper"><code class="xref">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper"><code class="xref">data_juicer.ops.mapper.video_resize_resolution_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_duration_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_key_frame_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_scene_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper"><code class="xref">data_juicer.ops.mapper.video_tagging_from_audio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_tagging_from_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper"><code class="xref">data_juicer.ops.mapper.whitespace_normalization_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion"><code class="xref">data_juicer.ops.op_fusion</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector"><code class="xref">data_juicer.ops.selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector"><code class="xref">data_juicer.ops.selector.frequency_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector"><code class="xref">data_juicer.ops.selector.random_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector"><code class="xref">data_juicer.ops.selector.range_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.tags_specified_field_selector"><code class="xref">data_juicer.ops.selector.tags_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector"><code class="xref">data_juicer.ops.selector.topk_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.tools.html#module-data_juicer.tools"><code class="xref">data_juicer.tools</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils"><code class="xref">data_juicer.utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils"><code class="xref">data_juicer.utils.asset_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping"><code class="xref">data_juicer.utils.auto_install_mapping</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils"><code class="xref">data_juicer.utils.auto_install_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils"><code class="xref">data_juicer.utils.availability_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils"><code class="xref">data_juicer.utils.cache_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils"><code class="xref">data_juicer.utils.ckpt_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.common_utils"><code class="xref">data_juicer.utils.common_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.compress"><code class="xref">data_juicer.utils.compress</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.constant"><code class="xref">data_juicer.utils.constant</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.file_utils"><code class="xref">data_juicer.utils.file_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils"><code class="xref">data_juicer.utils.fingerprint_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader"><code class="xref">data_juicer.utils.lazy_loader</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils"><code class="xref">data_juicer.utils.logger_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils"><code class="xref">data_juicer.utils.mm_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.model_utils"><code class="xref">data_juicer.utils.model_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.process_utils"><code class="xref">data_juicer.utils.process_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.registry"><code class="xref">data_juicer.utils.registry</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils"><code class="xref">data_juicer.utils.resource_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils"><code class="xref">data_juicer.utils.unittest_utils</code></a></td><td>
        <em></em></td></tr>
    </table>
 
diff --git a/search.html b/search.html
index e0c528fe7..837d941d1 100644
--- a/search.html
+++ b/search.html
@@ -12,7 +12,7 @@
   
     
       <script src="_static/documentation_options.js?v=baaebd52"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <script src="_static/searchtools.js"></script>
@@ -42,16 +42,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
diff --git a/searchindex.js b/searchindex.js
index 5bc5864bd..4ba0865dc 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"alltitles": {"API Reference": [[15, null]], "Indices and Tables": [[15, "indices-and-tables"]], "Tutorial": [[15, "tutorial"]], "Welcome to data-juicer\u2019s documentation!": [[15, null]], "data_juicer": [[0, null], [16, null]], "data_juicer.analysis": [[1, null]], "data_juicer.config": [[2, null]], "data_juicer.core": [[3, null]], "data_juicer.format": [[4, null]], "data_juicer.ops": [[5, null]], "data_juicer.ops.aggregator": [[6, null]], "data_juicer.ops.common": [[7, null]], "data_juicer.ops.deduplicator": [[8, null]], "data_juicer.ops.filter": [[9, null]], "data_juicer.ops.grouper": [[10, null]], "data_juicer.ops.mapper": [[11, null]], "data_juicer.ops.selector": [[12, null]], "data_juicer.tools": [[13, null]], "data_juicer.utils": [[14, null]]}, "docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "envversion": {"sphinx": 64, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.aggregator.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.grouper.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "indexentries": {"__init__() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.format.csvformatter method)": [[4, "data_juicer.format.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.jsonformatter method)": [[4, "data_juicer.format.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.parquetformatter method)": [[4, "data_juicer.format.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.__init__", false]], "__init__() (data_juicer.format.tsvformatter method)": [[4, "data_juicer.format.TsvFormatter.__init__", false]], "__init__() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.__init__", false]], "analyze() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.analyze", false]], "attribute_summary() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary", false]], "columnwiseanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.ColumnWiseAnalysis", false]], "compute() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.compute", false]], "csvformatter (class in data_juicer.format)": [[4, "data_juicer.format.CsvFormatter", false]], "cuda_device_count() (in module data_juicer)": [[0, "data_juicer.cuda_device_count", false]], "data_juicer": [[0, "module-data_juicer", false]], "data_juicer.analysis": [[1, "module-data_juicer.analysis", false]], "data_juicer.config": [[2, "module-data_juicer.config", false]], "data_juicer.format": [[4, "module-data_juicer.format", false]], "data_juicer.ops.aggregator": [[6, "module-data_juicer.ops.aggregator", false]], "data_juicer.ops.common": [[7, "module-data_juicer.ops.common", false]], "data_juicer.tools": [[13, "module-data_juicer.tools", false]], "data_juicer.utils": [[14, "module-data_juicer.utils", false]], "default_example_prompt (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_input_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_output_pattern (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_system_prompt (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_tag_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE", false]], "default_target_tag_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE", false]], "diversityanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.DiversityAnalysis", false]], "draw_box() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_box", false]], "draw_hist() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_wordcloud() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "emptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.EmptyFormatter", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator", false]], "export_config() (in module data_juicer.config)": [[2, "data_juicer.config.export_config", false]], "get_init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.get_init_configs", false]], "get_sentences_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_sentences_from_document", false]], "get_words_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_words_from_document", false]], "init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.init_configs", false]], "is_cuda_available() (in module data_juicer)": [[0, "data_juicer.is_cuda_available", false]], "jsonformatter (class in data_juicer.format)": [[4, "data_juicer.format.JsonFormatter", false]], "load_dataset() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.load_dataset", false]], "load_formatter() (in module data_juicer.format)": [[4, "data_juicer.format.load_formatter", false]], "localformatter (class in data_juicer.format)": [[4, "data_juicer.format.LocalFormatter", false]], "merge_config() (in module data_juicer.config)": [[2, "data_juicer.config.merge_config", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.merge_on_whitespace_tab_newline", false]], "meta_map() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.meta_map", false]], "metatagsaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator", false]], "mixtureformatter (class in data_juicer.format)": [[4, "data_juicer.format.MixtureFormatter", false]], "module": [[0, "module-data_juicer", false], [1, "module-data_juicer.analysis", false], [2, "module-data_juicer.config", false], [4, "module-data_juicer.format", false], [6, "module-data_juicer.ops.aggregator", false], [7, "module-data_juicer.ops.common", false], [13, "module-data_juicer.tools", false], [14, "module-data_juicer.utils", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator", false]], "nestedaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.NestedAggregator", false]], "null_value (data_juicer.format.emptyformatter property)": [[4, "data_juicer.format.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.rayemptyformatter property)": [[4, "data_juicer.format.RayEmptyFormatter.null_value", false]], "overallanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.OverallAnalysis", false]], "parquetformatter (class in data_juicer.format)": [[4, "data_juicer.format.ParquetFormatter", false]], "parse_output() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.parse_output", false]], "prepare_side_configs() (in module data_juicer.config)": [[2, "data_juicer.config.prepare_side_configs", false]], "process_single() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.process_single", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "random_sample() (data_juicer.format.mixtureformatter class method)": [[4, "data_juicer.format.MixtureFormatter.random_sample", false]], "rayemptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.RayEmptyFormatter", false]], "recursive_summary() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.recursive_summary", false]], "refine_single_column() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.refine_single_column", false]], "remoteformatter (class in data_juicer.format)": [[4, "data_juicer.format.RemoteFormatter", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_newline_tab_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_whitespace", false]], "split_text_by_punctuation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_text_by_punctuation", false]], "strip() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.strip", false]], "suffixes (data_juicer.format.csvformatter attribute)": [[4, "data_juicer.format.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.emptyformatter attribute)": [[4, "data_juicer.format.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.jsonformatter attribute)": [[4, "data_juicer.format.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquetformatter attribute)": [[4, "data_juicer.format.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.rayemptyformatter attribute)": [[4, "data_juicer.format.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.textformatter attribute)": [[4, "data_juicer.format.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsvformatter attribute)": [[4, "data_juicer.format.TsvFormatter.SUFFIXES", false]], "textformatter (class in data_juicer.format)": [[4, "data_juicer.format.TextFormatter", false]], "tsvformatter (class in data_juicer.format)": [[4, "data_juicer.format.TsvFormatter", false]], "words_augmentation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_augmentation", false]], "words_refinement() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_refinement", false]]}, "objects": {"": [[0, 0, 0, "-", "data_juicer"]], "data_juicer": [[1, 0, 0, "-", "analysis"], [2, 0, 0, "-", "config"], [0, 3, 1, "", "cuda_device_count"], [4, 0, 0, "-", "format"], [0, 3, 1, "", "is_cuda_available"], [13, 0, 0, "-", "tools"], [14, 0, 0, "-", "utils"]], "data_juicer.analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 1, 1, "", "DiversityAnalysis"], [1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.config": [[2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "prepare_side_configs"]], "data_juicer.format": [[4, 1, 1, "", "CsvFormatter"], [4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "JsonFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "MixtureFormatter"], [4, 1, 1, "", "ParquetFormatter"], [4, 1, 1, "", "RayEmptyFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 1, 1, "", "TextFormatter"], [4, 1, 1, "", "TsvFormatter"], [4, 3, 1, "", "load_formatter"]], "data_juicer.format.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.ops": [[6, 0, 0, "-", "aggregator"], [7, 0, 0, "-", "common"]], "data_juicer.ops.aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"], [6, 1, 1, "", "MetaTagsAggregator"], [6, 1, 1, "", "MostRelavantEntitiesAggregator"], [6, 1, 1, "", "NestedAggregator"]], "data_juicer.ops.aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MetaTagsAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 4, 1, "", "DEFAULT_TAG_TEMPLATE"], [6, 4, 1, "", "DEFAULT_TARGET_TAG_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "meta_map"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.common": [[7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property"}, "terms": {"": [1, 6], "0": [4, 6], "1": [1, 4, 6], "10": 6, "100": 6, "100\u5b57": 6, "11": 6, "16": 6, "17": 6, "19": 6, "2": [6, 7], "20": 6, "22": 6, "24": 15, "3": 6, "42": 4, "4o": 6, "9": 6, "95": 6, "For": 6, "If": 1, "In": 1, "It": [4, 6], "The": [4, 6], "__init__": [1, 4, 6], "__path__": 2, "accord": 4, "ad": 7, "add": 4, "add_suffix": 4, "after": [1, 7], "all": [1, 7], "also": 7, "an": [1, 4, 6], "analysi": 15, "analyz": [1, 2], "ani": 7, "annot": 6, "api": 6, "api_endpoint": 6, "api_model": 6, "appli": 1, "ar": [2, 7], "arg": [2, 4], "argument": [1, 6], "asm": 4, "attempt": 6, "attribut": 6, "attribute_summari": 6, "augment": 7, "ax": 1, "base": [1, 4, 6], "baseformatt": 4, "bash": 4, "bat": 4, "batch": 6, "between": 7, "bigger": 4, "bool": 2, "box": 1, "c": 4, "call": 6, "case": [7, 15], "cc": 4, "cfg": [2, 4], "cfg_after_merg": 2, "char": 7, "charact": 7, "check": 2, "chines": 7, "choic": 6, "class": [1, 4, 6], "classmethod": 4, "close": 6, "cmake": 4, "cmd": 4, "cnt": 6, "code": 2, "col": 1, "column": 1, "column_nam": 1, "columnwiseanalysi": [1, 15], "command": [2, 4], "common": 15, "comput": [1, 7], "concaten": 7, "conclus": 6, "config": 15, "configur": [2, 4], "conifg": 2, "consequ": 4, "consid": 6, "contain": [4, 7], "content": 6, "convert": 7, "core": 15, "cpp": 4, "creat": 4, "css": 4, "csv": 4, "csvformatt": [4, 15], "cuda_device_count": [0, 16], "d": 4, "data": [1, 4], "data_juic": 15, "datajuc": 2, "datas": 4, "dataset": [1, 4], "dataset_path": 4, "datasset": 4, "dedupl": 15, "default": [1, 2, 4, 6], "default_example_prompt": 6, "default_input_templ": 6, "default_output_pattern": 6, "default_output_pattern_templ": 6, "default_sub_doc_templ": 6, "default_system_prompt": 6, "default_system_templ": 6, "default_tag_templ": 6, "default_target_tag_templ": 6, "defaut": 2, "delimit": 4, "descend": 6, "describ": 1, "detail": 15, "dialog_sentiment_label": 6, "dict": [2, 6], "differ": [4, 7], "dir": 4, "directori": 4, "disk": 1, "distribut": 1, "divers": 1, "diversityanalysi": [1, 15], "doc": 6, "dockerfil": 4, "document": [6, 7], "docx": 4, "draw": 1, "draw_box": 1, "draw_hist": 1, "draw_wordcloud": 1, "ds_dir": 4, "ds_file": 4, "e": [2, 4, 6], "each": [1, 6], "element": 7, "emoji": 7, "empti": 4, "emptyformatt": [4, 15], "en": [1, 7], "endpoint": 6, "entiti": 6, "entity_attribut": 6, "entity_typ": 6, "entityattributeaggreg": 6, "entri": 2, "environ": 2, "error": 6, "especi": 7, "etc": [1, 4], "event_descript": 6, "everi": 4, "exampl": 6, "example_prompt": 6, "exclud": 2, "executor": 2, "exist": 2, "expect": 2, "export": [1, 4], "export_config": [2, 15], "extra": [4, 6], "extract": 6, "f": 4, "f03": 4, "f08": 4, "f77": 4, "f90": 4, "f95": 4, "fals": [1, 2, 4, 7], "faster": 7, "featur": 4, "feature_kei": 4, "field": [4, 6], "figur": 1, "file": [1, 2, 4], "filter": 15, "first": 7, "format": [2, 15], "formatt": 4, "foundat": 15, "fpp": 4, "frequenc": 6, "from": [2, 4, 6, 7], "function": [1, 7], "g": [2, 4, 6], "generated_dataset_config": 4, "get": [1, 7], "get_divers": 1, "get_init_config": [2, 15], "get_sentences_from_docu": [7, 15], "get_words_from_docu": [7, 15], "give": 15, "given": 6, "global": [2, 4], "global_cfg": 4, "go": 4, "gpt": 6, "group": 7, "group_siz": 7, "grouper": 6, "gt": 6, "guidanc": 15, "h": 4, "hard": 2, "here": 15, "hh": 4, "histogram": 1, "hpp": 4, "html": 4, "hub": 4, "huggingfac": 4, "i": [2, 4, 6, 7], "imag": 1, "import": 6, "includ": 1, "index": 15, "indic": 1, "info": 4, "inform": 1, "init": 2, "init_config": [2, 15], "initi": [1, 2, 4, 6], "input": 6, "input_kei": 6, "input_templ": 6, "instead": [4, 7], "int": [4, 6], "invert": 7, "is_cuda_avail": [0, 16], "its": [4, 6], "j": 4, "java": 4, "jl": 4, "join_char": 7, "json": [2, 4], "json_ind": 2, "jsonargpars": 2, "jsonformatt": [4, 15], "jsonl": 4, "jsonnet": 2, "kdd": 15, "kei": [4, 6], "keyword": 6, "kwarg": [4, 6], "lang_or_model": 1, "languag": 1, "length": [4, 6], "level": [6, 7], "lexic": 1, "like": 7, "limit": 6, "line": [1, 2], "list": [2, 4, 6, 7], "load": [1, 4], "load_dataset": 4, "load_formatt": [4, 15], "local": 4, "localformatt": [4, 15], "lot": 7, "lower": 7, "lower_cas": 7, "lowercas": 7, "lua": 4, "m": 4, "makefil": 4, "map": 6, "mapper": 15, "markdown": 4, "max": [4, 6], "max_sampl": 4, "max_token_num": 6, "md": 4, "mean": 1, "merg": [2, 4, 6, 7], "merge_config": [2, 15], "merge_on_whitespace_tab_newlin": [7, 15], "messag": 6, "meta": [2, 4, 6], "meta_cnt": 6, "meta_map": 6, "meta_tag_kei": 6, "metatagsaggreg": 6, "method": [1, 4, 6, 7], "mix": 4, "mixtur": 4, "mixtureformatt": [4, 15], "modal": 15, "model": [1, 6, 7, 15], "model_func": 7, "model_param": 6, "modul": [4, 15], "more": 15, "most_relavant_ent": 6, "mostrelavantentitiesaggreg": 6, "multi": 15, "multifil": 2, "multipl": [2, 4, 7], "must": [4, 6], "n": [6, 7], "name": [1, 4, 6], "namespac": 2, "need": 7, "nest": 6, "nestedaggreg": 6, "new": 4, "new_cfg": 2, "new_lin": 7, "non": 7, "none": [1, 2, 4, 6, 7], "now": 7, "null_valu": 4, "num": 6, "num_proc": [1, 4], "number": [1, 4, 6], "n\u4e0d\u7518\u5fc3\u7684\u767d\u9aa8\u7cbe\u7b2c\u4e09\u6b21\u5316\u4f5c\u8001\u516c\u516c\u6765\u8bf1\u9a97": 6, "n\u4e0e": 6, "n\u4eba\u72691": 6, "n\u4f60\u5bf9\u5404\u4e2a": 6, "n\u53f7\u79f0\u9f50\u5929\u5927\u5723": 6, "n\u5408\u5e76\u540e\u7684\u6807\u7b7e\u5e94\u9650\u5b9a\u5728": 6, "n\u5510\u50e7\u5e08\u5f92\u56db\u4eba\u884c\u81f3\u767d\u864e\u5cad": 6, "n\u5510\u50e7\u5e08\u5f92\u5728\u767d\u864e\u5cad\u4e09\u9047\u767d\u9aa8\u7cbe\u53d8\u5316\u8bf1\u60d1": 6, "n\u5996\u602a\u518d\u53d8\u8001\u5987\u5bfb\u5973": 6, "n\u6587\u6863\u603b\u7ed3": 6, "n\u6587\u6863\u788e\u7247": 6, "n\u6700\u7ec8": 6, "n\u767d\u9aa8\u7cbe\u9996\u6b21\u53d8\u8eab\u5c11\u5973\u9001\u658b": 6, "n\u8981\u6c42": 6, "object": [1, 2], "obtain": 7, "one": [1, 2, 6, 7], "op": 15, "option": [1, 4], "order": 6, "ori_cfg": 2, "ori_config": 2, "origin": 2, "output": 6, "output_kei": 6, "output_path": 1, "output_pattern": 6, "output_pattern_templ": 6, "overal": 1, "overall_result": 1, "overallanalysi": [1, 15], "overwrit": 2, "packag": 4, "page": 15, "panda": 1, "param": [1, 2, 4, 6, 7], "paramet": [1, 2, 4, 6, 7], "parquet": 4, "parquetformatt": [4, 15], "pars": [2, 6], "parse_output": 6, "parser": 2, "parser_mod": 2, "part": 6, "pass": 6, "path": [1, 2, 4, 6], "pattern": 6, "pdf": 4, "percentil": 1, "perl": 4, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "pl": 4, "plot": 1, "pm": 4, "pod": 4, "posix": 2, "postproc_func": 1, "postproc_kwarg": 1, "practic": 15, "precomput": 1, "prepare_side_config": [2, 15], "process": [1, 4, 7, 15], "process_singl": 6, "prompt": 6, "properti": 4, "provid": 4, "ps1": 4, "psd1": 4, "psm1": 4, "punctuat": 7, "py": 4, "quantil": 1, "queri": 6, "query_entity_typ": 6, "query_most_relavant_ent": 6, "r": 4, "rai": 4, "random": 4, "random_sampl": 4, "randomli": 4, "rank": 6, "ratio": [4, 7], "rayemptyformatt": [4, 15], "rb": 4, "recursive_summari": 6, "red": 1, "refin": 7, "refine_single_column": 1, "relat": 6, "relav": 6, "remoteformatt": [4, 15], "remov": 7, "repositori": 4, "respect": 1, "respons": 6, "response_path": 6, "result": 1, "retri": 6, "return": [1, 2, 4, 6, 7], "revers": 7, "rst": 4, "same": 6, "sampl": [1, 4, 6], "sample_numb": 4, "sampling_param": 6, "save": [1, 2], "save_path": 1, "save_stats_in_one_fil": 1, "scala": 4, "search": 15, "see": 15, "seed": 4, "select": 4, "selector": 15, "sentenc": 7, "separ": 7, "set": [2, 7], "sever": 1, "sh": 4, "show": 1, "show_percentil": 1, "similar": 6, "sinc": 7, "singl": 1, "size": 7, "skip": 2, "skip_check": 2, "skip_export": 1, "skip_non": 2, "smali": 4, "some": [2, 6], "sort": 6, "sourc": [0, 1, 2, 4, 6, 7], "space": 7, "special": 7, "specif": 1, "specifi": [4, 7], "split": 7, "split_on_newline_tab_whitespac": [7, 15], "split_on_whitespac": [7, 15], "split_text_by_punctu": [7, 15], "splite": 7, "sql": 4, "stat": 1, "std": 1, "stopword": 7, "store": [1, 4], "str": [2, 4, 6, 7], "string": 2, "strip": [7, 15], "strip_char": 7, "strip_charact": 7, "style": 2, "sub": [1, 6, 7], "sub_doc": 6, "sub_doc_templ": 6, "subset": 4, "suffix": 4, "superset": 2, "suppos": 6, "syllabl": 7, "system": 6, "system_prompt": 6, "system_prompt_templ": 6, "t": [4, 7], "tab": 7, "tag": [6, 7], "tag_str": 6, "tag_templ": 6, "tap": 6, "target": 6, "target_tag": 6, "target_tag_str": 6, "target_tag_templ": 6, "temperatur": 6, "templat": 6, "tex": 4, "text": [1, 4, 6, 7], "text_kei": 4, "textformatt": [4, 15], "than": [4, 7], "them": [4, 6], "thi": [4, 7], "token": [6, 7], "token_func": 7, "top_p": 6, "total": 6, "tree": 1, "true": [1, 2, 7], "try_num": 6, "tsv": 4, "tsvformatt": [4, 15], "tsx": 4, "txt": 4, "type": [2, 4, 6], "unifi": 4, "unified_format_dataset": 4, "url": 6, "us": [1, 2, 4, 7, 15], "use_words_aug": 7, "valu": 2, "variabl": 2, "vb": 4, "vietnames": 7, "w": 6, "w1": 4, "w2": 4, "w3": 4, "wai": 7, "we": [4, 15], "weight": 4, "when": [4, 6], "whether": [1, 2, 4, 7], "which": 2, "which_entri": 2, "whole": 1, "whose": 2, "window": 1, "without": [6, 7], "word": 7, "word_limit": 6, "words_aug_group_s": 7, "words_aug_join_char": 7, "words_augment": [7, 15], "words_refin": [7, 15], "xml": 4, "yaml": 2, "yml": 2, "z": 6, "zh": 7, "zsh": 4, "zst": 4, "\u4e00\u79cd\u662f\u7ed9\u5b9a\u5408\u5e76\u540e\u7684\u6807\u7b7e": 6, "\u4e0d\u7528\u5305\u542b\u4e0e": 6, "\u4e0d\u8981\u5305\u542b\u4e3b\u89c2\u770b\u6cd5": 6, "\u4e0e": 6, "\u4e14\u9891\u6b21\u8f83\u4f4e": 6, "\u4e2d": 6, "\u4e3a\u540c\u4e00": 6, "\u4eb2\u751f\u7236\u6bcd\u672a\u77e5": 6, "\u4eba\u5de5\u667a\u80fd": 6, "\u4eba\u5de5\u667a\u80fd\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u4eba\u72692": 6, "\u4eba\u72693": 6, "\u4ee5\u4e0b\u662f\u8fd9\u79cd\u60c5\u51b5\u7684\u4e00\u4e2a\u6837\u4f8b": 6, "\u4ee5\u5185\u7684\u6837\u4f8b\u5982\u4e0b": 6, "\u4efb\u52a1\u5206\u4e3a\u4e24\u79cd\u60c5\u51b5": 6, "\u4f60\u7684\u8fd4\u56de\u683c\u5f0f\u5982\u4e0b": 6, "\u4f8b\u5982": 6, "\u4f9d\u65e7\u9003\u4e0d\u8fc7\u91d1\u775b\u706b\u773c": 6, "\u4fe1\u606f\u6280\u672f": 6, "\u4fe1\u606f\u6280\u672f\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u5065\u5eb7": 6, "\u5173\u8054\u4e0d\u5f3a": 6, "\u5173\u8054\u5ea6\u7684\u5206\u6790": 6, "\u5176\u4ed6": 6, "\u517b\u751f": 6, "\u517b\u751f\u5f52\u7c7b\u4e3a\u5065\u5eb7": 6, "\u51fa\u8eab\u80cc\u666f": 6, "\u5206\u6790": 6, "\u5217\u8868": 6, "\u533b\u7597": 6, "\u533b\u7597\u5f52\u7c7b\u4e3a\u5065\u5eb7": 6, "\u53c2\u8003\u5982\u4e0b\u6837\u4f8b": 6, "\u53c8\u88ab\u609f\u7a7a\u51fb\u6bd9": 6, "\u53e6\u5916\u4e00\u79cd\u60c5\u51b5\u6ca1\u6709\u4e8b\u5148\u7ed9\u5b9a\u5408\u5e76\u540e\u7684\u6807\u7b7e": 6, "\u53ea\u5bf9\u6587\u6863\u4e2d\u4e0e": 6, "\u53ea\u8f93\u51fa\u6587\u6863\u603b\u7ed3\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u5185\u5bb9": 6, "\u53ef\u4ee5\u5f52\u7c7b\u4e3a": 6, "\u5408\u5e76\u524d\u6807\u7b7e": 6, "\u5408\u5e76\u540e\u7684\u6807\u7b7e\u5e94\u9650\u5b9a\u5728": 6, "\u5408\u5e76\u610f\u601d\u76f8\u8fd1\u7684\u6807\u7b7e": 6, "\u548c": 6, "\u5510\u50e7\u660e\u767d\u4e86\u81ea\u5df1\u7684\u8bef\u89e3": 6, "\u5510\u50e7\u8d23\u602a\u609f\u7a7a": 6, "\u5728\u89c2\u97f3\u83e9\u8428\u7684\u5e2e\u52a9\u4e0b": 6, "\u5982\u679c\u7ed9\u5b9a\u7684\u5408\u5e76\u540e\u7684\u6807\u7b7e\u4e2d\u6709\u7c7b\u4f3c": 6, "\u5b57\u4ee5\u5185": 6, "\u5b57\u6570\u9650\u5236\u5728": 6, "\u5b59\u609f\u7a7a": 6, "\u5b66\u4e60": 6, "\u5b66\u4e60\u5f52\u7c7b\u4e3a\u5176\u4ed6": 6, "\u5c06\u65e0\u6cd5\u5f52\u7c7b\u7684\u6807\u7b7e\u5408\u5e76\u5230": 6, "\u5c06\u8fd9\u4e9b\u6587\u6863\u6574\u5408\u6210\u4e00\u4e2a\u6587\u6863\u603b\u7ed3": 6, "\u5c3d\u91cf\u4f7f\u7528\u539f\u6587\u4e13\u6709\u540d\u8bcd": 6, "\u5e08\u5085\u66f4\u52a0\u4e0d\u6ee1": 6, "\u5e08\u7236\u662f\u5510\u50e7\u7384\u5958": 6, "\u5e94\u8be5\u88ab\u5f52\u4e3a": 6, "\u5f52\u4e3a\u540c\u4e00\u7c7b": 6, "\u5f52\u7c7b\u4e3a": 6, "\u5ff5\u7d27\u7b8d\u5492\u60e9\u7f5a": 6, "\u603b\u7ed3": 6, "\u603b\u7ed3\u4e00\u4e9b\u4e0e": 6, "\u603b\u7ed3\u7684\u957f\u5ea6\u4e0e\u6587\u6863\u788e\u7247\u7684\u5e73\u5747\u957f\u5ea6\u57fa\u672c\u4e00\u81f4": 6, "\u609f\u7a7a\u5c61\u6b21\u8bc6\u7834\u51fb\u6bd9\u5996\u602a\u5374\u906d\u8bef\u89e3": 6, "\u6587\u6863\u788e\u7247": 6, "\u66fe\u62dc\u83e9\u63d0\u7956\u5e08\u5b66\u827a": 6, "\u6700\u4e3a\u76f8\u5173\u7684": 6, "\u6700\u6015\u89c2\u4e16\u97f3\u83e9\u8428\u548c\u7d27\u7b8d\u5492": 6, "\u6700\u76f8\u5173\u7684\u4e00\u4e9b": 6, "\u6700\u7ec8\u89c2\u97f3\u76f8\u52a9\u771f\u76f8\u5927\u767d": 6, "\u6709\u5173\u7684\u5185\u5bb9\u8fdb\u884c\u603b\u7ed3": 6, "\u6709\u5173\u7cfb": 6, "\u6709\u5173\u8054": 6, "\u6807\u7b7e\u5408\u5e76": 6, "\u6839\u636e\u76f8\u5173\u6587\u6863\u603b\u7ed3": 6, "\u6c14\u5019\u53d8\u5316": 6, "\u6c14\u5019\u53d8\u5316\u5f52\u7c7b\u4e3a\u5176\u4ed6": 6, "\u6ce8\u610f\u8981\u5c3d\u53ef\u80fd\u4fdd\u7559\u6587\u672c\u7684\u4e13\u6709\u540d\u8bcd": 6, "\u7684": 6, "\u7684\u76f8\u5173\u6587\u6863": 6, "\u76f8\u5173\u7684\u4e00\u4e9b\u6587\u6863": 6, "\u771f\u76f8\u5927\u767d": 6, "\u79d1\u5b66\u521b\u65b0": 6, "\u79d1\u5b66\u521b\u65b0\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u79d1\u6280": 6, "\u7c7b\u522b": 6, "\u7ed9\u5b9a\u4e00\u4e9b\u6587\u6863\u788e\u7247": 6, "\u7ed9\u5b9a\u4e00\u4e9b\u6807\u7b7e\u4ee5\u53ca\u8fd9\u4e9b\u6807\u7b7e\u51fa\u73b0\u7684\u9891\u6b21": 6, "\u7ed9\u5b9a\u4e0e": 6, "\u7edf\u4e00\u5f52\u7c7b\u4e3a": 6, "\u8054\u7cfb\u4e0a\u4e0b\u6587": 6, "\u81ea\u52a8\u5ffd\u7565\u4e0a\u4e0b\u6587\u4e0d\u4e00\u81f4\u7684\u7ec6\u8282\u9519\u8bef": 6, "\u81ea\u77f3\u5934\u4e2d\u5b55\u80b2\u800c\u751f": 6, "\u81ea\u8ba4\u6597\u6218\u80dc\u4f5b": 6, "\u82b1\u679c\u5c71\u6c34\u5e18\u6d1e\u7684\u7f8e\u7334\u738b": 6, "\u88ab\u5b59\u609f\u7a7a\u8bc6\u7834\u6253\u6b7b": 6, "\u897f\u884c\u53d6\u7ecf\u961f\u4f0d\u4e2d\u7684\u5927\u5e08\u5144": 6, "\u8981\u6c42\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 6, "\u8bf7\u6309\u7167\u4eba\u7269\u7684\u91cd\u8981\u6027\u8fdb\u884c\u6392\u5e8f": 6, "\u8d8a\u91cd\u8981\u4eba\u7269\u5728\u5217\u8868\u8d8a\u524d\u9762": 6, "\u8ddf": 6, "\u8ddf\u5176\u4ed6\u6807\u7b7e\u5173\u8054\u5ea6\u4e0d\u5f3a": 6, "\u8fd8\u6709": 6, "\u8fd9\u4e09\u4e2a\u6807\u7b7e\u6bd4\u8f83\u76f8\u8fd1": 6, "\u8fd9\u79cd\u6807\u7b7e": 6, "\u9047\u4e0a\u4e86\u53d8\u5316\u591a\u7aef\u7684\u767d\u9aa8\u7cbe": 6, "\u90fd\u5c5e\u4e8e": 6, "\u90fd\u8ddf": 6, "\u9700\u8981\u5c06\u5408\u5e76\u524d\u7684\u6807\u7b7e\u6620\u5c04\u5230\u8fd9\u4e9b\u6807\u7b7e": 6, "\u9700\u8981\u751f\u6210\u5408\u7406\u7684\u6807\u7b7e\u7c7b\u522b": 6, "\u9891\u6b21": 6}, "titles": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "titleterms": {"": 15, "aggreg": 6, "analysi": 1, "api": 15, "common": 7, "config": 2, "core": 3, "data": 15, "data_juic": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16], "dedupl": 8, "document": 15, "filter": 9, "format": 4, "grouper": 10, "indic": 15, "juicer": 15, "mapper": 11, "op": [5, 6, 7, 8, 9, 10, 11, 12], "refer": 15, "selector": 12, "tabl": 15, "tool": 13, "tutori": 15, "util": 14, "welcom": 15}})
\ No newline at end of file
+Search.setIndex({"alltitles": {"API Reference": [[15, null]], "Indices and Tables": [[15, "indices-and-tables"]], "Module contents": [[0, "module-data_juicer"], [1, "module-data_juicer.analysis"], [2, "module-data_juicer.config"], [3, "module-contents"], [4, "module-data_juicer.format"], [5, "module-data_juicer.ops"], [6, "module-data_juicer.ops.aggregator"], [7, "module-data_juicer.ops.common"], [8, "module-data_juicer.ops.deduplicator"], [9, "module-data_juicer.ops.filter"], [10, "module-data_juicer.ops.grouper"], [11, "module-data_juicer.ops.mapper"], [12, "module-data_juicer.ops.selector"], [13, "module-data_juicer.tools"], [14, "module-data_juicer.utils"]], "Submodules": [[1, "submodules"], [2, "submodules"], [3, "submodules"], [4, "submodules"], [5, "submodules"], [6, "submodules"], [7, "submodules"], [8, "submodules"], [9, "submodules"], [10, "submodules"], [11, "submodules"], [12, "submodules"], [14, "submodules"]], "Subpackages": [[0, "subpackages"], [5, "subpackages"]], "Tutorial": [[15, "tutorial"]], "Welcome to data-juicer\u2019s documentation!": [[15, null]], "data_juicer": [[16, null]], "data_juicer package": [[0, null]], "data_juicer.analysis package": [[1, null]], "data_juicer.analysis.collector module": [[1, "module-data_juicer.analysis.collector"]], "data_juicer.analysis.column_wise_analysis module": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis module": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.draw module": [[1, "module-data_juicer.analysis.draw"]], "data_juicer.analysis.measure module": [[1, "module-data_juicer.analysis.measure"]], "data_juicer.analysis.overall_analysis module": [[1, "module-data_juicer.analysis.overall_analysis"]], "data_juicer.config package": [[2, null]], "data_juicer.config.config module": [[2, "module-data_juicer.config.config"]], "data_juicer.core package": [[3, null]], "data_juicer.core.adapter module": [[3, "data-juicer-core-adapter-module"]], "data_juicer.core.analyzer module": [[3, "data-juicer-core-analyzer-module"]], "data_juicer.core.data module": [[3, "data-juicer-core-data-module"]], "data_juicer.core.executor module": [[3, "data-juicer-core-executor-module"]], "data_juicer.core.exporter module": [[3, "data-juicer-core-exporter-module"]], "data_juicer.core.monitor module": [[3, "module-data_juicer.core.monitor"]], "data_juicer.core.ray_data module": [[3, "data-juicer-core-ray-data-module"]], "data_juicer.core.ray_executor module": [[3, "data-juicer-core-ray-executor-module"]], "data_juicer.core.tracer module": [[3, "data-juicer-core-tracer-module"]], "data_juicer.format package": [[4, null]], "data_juicer.format.csv_formatter module": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.empty_formatter module": [[4, "module-data_juicer.format.empty_formatter"]], "data_juicer.format.formatter module": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter module": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load module": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter module": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter module": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter module": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter module": [[4, "module-data_juicer.format.tsv_formatter"]], "data_juicer.ops package": [[5, null]], "data_juicer.ops.aggregator package": [[6, null]], "data_juicer.ops.aggregator.entity_attribute_aggregator module": [[6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator"]], "data_juicer.ops.aggregator.meta_tags_aggregator module": [[6, "module-data_juicer.ops.aggregator.meta_tags_aggregator"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator module": [[6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator"]], "data_juicer.ops.aggregator.nested_aggregator module": [[6, "module-data_juicer.ops.aggregator.nested_aggregator"]], "data_juicer.ops.base_op module": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.common package": [[7, null]], "data_juicer.ops.common.helper_func module": [[7, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters module": [[7, "module-data_juicer.ops.common.special_characters"]], "data_juicer.ops.deduplicator package": [[8, null]], "data_juicer.ops.deduplicator.document_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "data_juicer.ops.deduplicator.image_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.image_deduplicator"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator"]], "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator"]], "data_juicer.ops.deduplicator.ray_document_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator"]], "data_juicer.ops.deduplicator.ray_image_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator"]], "data_juicer.ops.deduplicator.ray_video_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator"]], "data_juicer.ops.deduplicator.video_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.video_deduplicator"]], "data_juicer.ops.filter package": [[9, null]], "data_juicer.ops.filter.alphanumeric_filter module": [[9, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.audio_duration_filter module": [[9, "module-data_juicer.ops.filter.audio_duration_filter"]], "data_juicer.ops.filter.audio_nmf_snr_filter module": [[9, "module-data_juicer.ops.filter.audio_nmf_snr_filter"]], "data_juicer.ops.filter.audio_size_filter module": [[9, "module-data_juicer.ops.filter.audio_size_filter"]], "data_juicer.ops.filter.average_line_length_filter module": [[9, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter module": [[9, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter module": [[9, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.image_aesthetics_filter module": [[9, "module-data_juicer.ops.filter.image_aesthetics_filter"]], "data_juicer.ops.filter.image_aspect_ratio_filter module": [[9, "module-data_juicer.ops.filter.image_aspect_ratio_filter"]], "data_juicer.ops.filter.image_face_count_filter module": [[9, "module-data_juicer.ops.filter.image_face_count_filter"]], "data_juicer.ops.filter.image_face_ratio_filter module": [[9, "module-data_juicer.ops.filter.image_face_ratio_filter"]], "data_juicer.ops.filter.image_nsfw_filter module": [[9, "module-data_juicer.ops.filter.image_nsfw_filter"]], "data_juicer.ops.filter.image_pair_similarity_filter module": [[9, "module-data_juicer.ops.filter.image_pair_similarity_filter"]], "data_juicer.ops.filter.image_shape_filter module": [[9, "module-data_juicer.ops.filter.image_shape_filter"]], "data_juicer.ops.filter.image_size_filter module": [[9, "module-data_juicer.ops.filter.image_size_filter"]], "data_juicer.ops.filter.image_text_matching_filter module": [[9, "module-data_juicer.ops.filter.image_text_matching_filter"]], "data_juicer.ops.filter.image_text_similarity_filter module": [[9, "module-data_juicer.ops.filter.image_text_similarity_filter"]], "data_juicer.ops.filter.image_watermark_filter module": [[9, "module-data_juicer.ops.filter.image_watermark_filter"]], "data_juicer.ops.filter.language_id_score_filter module": [[9, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter module": [[9, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter module": [[9, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.phrase_grounding_recall_filter module": [[9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter"]], "data_juicer.ops.filter.special_characters_filter module": [[9, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter module": [[9, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter module": [[9, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter module": [[9, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter module": [[9, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_action_filter module": [[9, "module-data_juicer.ops.filter.text_action_filter"]], "data_juicer.ops.filter.text_entity_dependency_filter module": [[9, "module-data_juicer.ops.filter.text_entity_dependency_filter"]], "data_juicer.ops.filter.text_length_filter module": [[9, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter module": [[9, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.video_aesthetics_filter module": [[9, "module-data_juicer.ops.filter.video_aesthetics_filter"]], "data_juicer.ops.filter.video_aspect_ratio_filter module": [[9, "module-data_juicer.ops.filter.video_aspect_ratio_filter"]], "data_juicer.ops.filter.video_duration_filter module": [[9, "module-data_juicer.ops.filter.video_duration_filter"]], "data_juicer.ops.filter.video_frames_text_similarity_filter module": [[9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter"]], "data_juicer.ops.filter.video_motion_score_filter module": [[9, "module-data_juicer.ops.filter.video_motion_score_filter"]], "data_juicer.ops.filter.video_motion_score_raft_filter module": [[9, "module-data_juicer.ops.filter.video_motion_score_raft_filter"]], "data_juicer.ops.filter.video_nsfw_filter module": [[9, "module-data_juicer.ops.filter.video_nsfw_filter"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter module": [[9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter"]], "data_juicer.ops.filter.video_resolution_filter module": [[9, "module-data_juicer.ops.filter.video_resolution_filter"]], "data_juicer.ops.filter.video_tagging_from_frames_filter module": [[9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter"]], "data_juicer.ops.filter.video_watermark_filter module": [[9, "module-data_juicer.ops.filter.video_watermark_filter"]], "data_juicer.ops.filter.word_repetition_filter module": [[9, "module-data_juicer.ops.filter.word_repetition_filter"]], "data_juicer.ops.filter.words_num_filter module": [[9, "module-data_juicer.ops.filter.words_num_filter"]], "data_juicer.ops.grouper package": [[10, null]], "data_juicer.ops.grouper.key_value_grouper module": [[10, "module-data_juicer.ops.grouper.key_value_grouper"]], "data_juicer.ops.grouper.naive_grouper module": [[10, "module-data_juicer.ops.grouper.naive_grouper"]], "data_juicer.ops.grouper.naive_reverse_grouper module": [[10, "module-data_juicer.ops.grouper.naive_reverse_grouper"]], "data_juicer.ops.load module": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.mapper package": [[11, null]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module": [[11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper"]], "data_juicer.ops.mapper.calibrate_qa_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_qa_mapper"]], "data_juicer.ops.mapper.calibrate_query_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_query_mapper"]], "data_juicer.ops.mapper.calibrate_response_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_response_mapper"]], "data_juicer.ops.mapper.chinese_convert_mapper module": [[11, "module-data_juicer.ops.mapper.chinese_convert_mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper module": [[11, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper module": [[11, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper module": [[11, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper module": [[11, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper module": [[11, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.dialog_intent_detection_mapper module": [[11, "module-data_juicer.ops.mapper.dialog_intent_detection_mapper"]], "data_juicer.ops.mapper.dialog_sentiment_detection_mapper module": [[11, "module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper"]], "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper module": [[11, "module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper"]], "data_juicer.ops.mapper.dialog_topic_detection_mapper module": [[11, "module-data_juicer.ops.mapper.dialog_topic_detection_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper module": [[11, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper module": [[11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper"]], "data_juicer.ops.mapper.extract_entity_relation_mapper module": [[11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper"]], "data_juicer.ops.mapper.extract_event_mapper module": [[11, "module-data_juicer.ops.mapper.extract_event_mapper"]], "data_juicer.ops.mapper.extract_keyword_mapper module": [[11, "module-data_juicer.ops.mapper.extract_keyword_mapper"]], "data_juicer.ops.mapper.extract_nickname_mapper module": [[11, "module-data_juicer.ops.mapper.extract_nickname_mapper"]], "data_juicer.ops.mapper.extract_support_text_mapper module": [[11, "module-data_juicer.ops.mapper.extract_support_text_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper module": [[11, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper module": [[11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper module": [[11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper"]], "data_juicer.ops.mapper.image_blur_mapper module": [[11, "module-data_juicer.ops.mapper.image_blur_mapper"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module": [[11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper"]], "data_juicer.ops.mapper.image_captioning_mapper module": [[11, "module-data_juicer.ops.mapper.image_captioning_mapper"]], "data_juicer.ops.mapper.image_diffusion_mapper module": [[11, "module-data_juicer.ops.mapper.image_diffusion_mapper"]], "data_juicer.ops.mapper.image_face_blur_mapper module": [[11, "module-data_juicer.ops.mapper.image_face_blur_mapper"]], "data_juicer.ops.mapper.image_tagging_mapper module": [[11, "module-data_juicer.ops.mapper.image_tagging_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper module": [[11, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper module": [[11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.optimize_qa_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_qa_mapper"]], "data_juicer.ops.mapper.optimize_query_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_query_mapper"]], "data_juicer.ops.mapper.optimize_response_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_response_mapper"]], "data_juicer.ops.mapper.pair_preference_mapper module": [[11, "module-data_juicer.ops.mapper.pair_preference_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper module": [[11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.python_file_mapper module": [[11, "module-data_juicer.ops.mapper.python_file_mapper"]], "data_juicer.ops.mapper.python_lambda_mapper module": [[11, "module-data_juicer.ops.mapper.python_lambda_mapper"]], "data_juicer.ops.mapper.query_intent_detection_mapper module": [[11, "module-data_juicer.ops.mapper.query_intent_detection_mapper"]], "data_juicer.ops.mapper.query_sentiment_detection_mapper module": [[11, "module-data_juicer.ops.mapper.query_sentiment_detection_mapper"]], "data_juicer.ops.mapper.query_topic_detection_mapper module": [[11, "module-data_juicer.ops.mapper.query_topic_detection_mapper"]], "data_juicer.ops.mapper.relation_identity_mapper module": [[11, "module-data_juicer.ops.mapper.relation_identity_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper module": [[11, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper module": [[11, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper module": [[11, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper module": [[11, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper module": [[11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper module": [[11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper module": [[11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper module": [[11, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module": [[11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.replace_content_mapper module": [[11, "module-data_juicer.ops.mapper.replace_content_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper module": [[11, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.text_chunk_mapper module": [[11, "module-data_juicer.ops.mapper.text_chunk_mapper"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper"]], "data_juicer.ops.mapper.video_extract_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_extract_frames_mapper"]], "data_juicer.ops.mapper.video_face_blur_mapper module": [[11, "module-data_juicer.ops.mapper.video_face_blur_mapper"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module": [[11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper"]], "data_juicer.ops.mapper.video_remove_watermark_mapper module": [[11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module": [[11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper"]], "data_juicer.ops.mapper.video_resize_resolution_mapper module": [[11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper"]], "data_juicer.ops.mapper.video_split_by_duration_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper"]], "data_juicer.ops.mapper.video_split_by_scene_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper module": [[11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper module": [[11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "data_juicer.ops.op_fusion module": [[5, "module-data_juicer.ops.op_fusion"]], "data_juicer.ops.selector package": [[12, null]], "data_juicer.ops.selector.frequency_specified_field_selector module": [[12, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.random_selector module": [[12, "module-data_juicer.ops.selector.random_selector"]], "data_juicer.ops.selector.range_specified_field_selector module": [[12, "module-data_juicer.ops.selector.range_specified_field_selector"]], "data_juicer.ops.selector.tags_specified_field_selector module": [[12, "module-data_juicer.ops.selector.tags_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector module": [[12, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "data_juicer.tools package": [[13, null]], "data_juicer.utils package": [[14, null]], "data_juicer.utils.asset_utils module": [[14, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.auto_install_mapping module": [[14, "module-data_juicer.utils.auto_install_mapping"]], "data_juicer.utils.auto_install_utils module": [[14, "module-data_juicer.utils.auto_install_utils"]], "data_juicer.utils.availability_utils module": [[14, "module-data_juicer.utils.availability_utils"]], "data_juicer.utils.cache_utils module": [[14, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils module": [[14, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.common_utils module": [[14, "module-data_juicer.utils.common_utils"]], "data_juicer.utils.compress module": [[14, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant module": [[14, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils module": [[14, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils module": [[14, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.lazy_loader module": [[14, "module-data_juicer.utils.lazy_loader"]], "data_juicer.utils.logger_utils module": [[14, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.mm_utils module": [[14, "module-data_juicer.utils.mm_utils"]], "data_juicer.utils.model_utils module": [[14, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.process_utils module": [[14, "module-data_juicer.utils.process_utils"]], "data_juicer.utils.registry module": [[14, "module-data_juicer.utils.registry"]], "data_juicer.utils.resource_utils module": [[14, "module-data_juicer.utils.resource_utils"]], "data_juicer.utils.unittest_utils module": [[14, "module-data_juicer.utils.unittest_utils"]], "}": [[3, "id1"], [3, "id2"]]}, "docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "envversion": {"sphinx": 62, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.aggregator.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.grouper.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "indexentries": {"__init__() (data_juicer.analysis.collector.texttokendistcollector method)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector.__init__", false]], "__init__() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.core.monitor.monitor method)": [[3, "data_juicer.core.monitor.Monitor.__init__", false]], "__init__() (data_juicer.format.csv_formatter.csvformatter method)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.csvformatter method)": [[4, "data_juicer.format.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.empty_formatter.emptyformatter method)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.empty_formatter.rayemptyformatter method)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.json_formatter.jsonformatter method)": [[4, "data_juicer.format.json_formatter.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.jsonformatter method)": [[4, "data_juicer.format.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.parquet_formatter.parquetformatter method)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.parquetformatter method)": [[4, "data_juicer.format.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.__init__", false]], "__init__() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.__init__", false]], "__init__() (data_juicer.format.tsv_formatter.tsvformatter method)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.__init__", false]], "__init__() (data_juicer.format.tsvformatter method)": [[4, "data_juicer.format.TsvFormatter.__init__", false]], "__init__() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.__init__", false]], "__init__() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.__init__", false]], "__init__() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.__init__", false]], "__init__() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.__init__", false]], "__init__() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.__init__", false]], "__init__() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.__init__", false]], "__init__() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.__init__", false]], "__init__() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.__init__", false]], "__init__() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.__init__", false]], "__init__() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.actorbackend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.backend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.redisbackend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_document_deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_image_deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_video_deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.__init__", false]], "__init__() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__", false]], "__init__() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__", false]], "__init__() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__", false]], "__init__() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__", false]], "__init__() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__", false]], "__init__() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.__init__", false]], "__init__() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.__init__", false]], "__init__() (data_juicer.ops.grouper.key_value_grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naive_grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naive_reverse_grouper.naivereversegrouper method)": [[10, "data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naivereversegrouper method)": [[10, "data_juicer.ops.grouper.NaiveReverseGrouper.__init__", false]], "__init__() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.__init__", false]], "__init__() (data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.chinese_convert_mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_blur_mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_captioning_mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_diffusion_mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_face_blur_mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_tagging_mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.query_intent_detection_mapper.queryintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.query_sentiment_detection_mapper.querysentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.query_topic_detection_mapper.querytopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.queryintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.QueryIntentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.querysentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.QuerySentimentDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.querytopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.QueryTopicDetectionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_non_chinese_character_mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_repeat_sentences_mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.replace_content_mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_audio_mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_frames_mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_video_mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_extract_frames_mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_face_blur_mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_remove_watermark_mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_resize_resolution_mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_tagging_from_audio_mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_tagging_from_frames_mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.__init__", false]], "__init__() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.__init__", false]], "__init__() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.random_selector.randomselector method)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector.__init__", false]], "__init__() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.__init__", false]], "__init__() (data_juicer.ops.selector.range_specified_field_selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.tags_specified_field_selector.tagsspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.tagsspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TagsSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.__init__", false]], "__init__() (data_juicer.utils.cache_utils.datasetcachecontrol method)": [[14, "data_juicer.utils.cache_utils.DatasetCacheControl.__init__", false]], "__init__() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.__init__", false]], "__init__() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.__init__", false]], "__init__() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.__init__", false]], "__init__() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.__init__", false]], "__init__() (data_juicer.utils.lazy_loader.lazyloader method)": [[14, "data_juicer.utils.lazy_loader.LazyLoader.__init__", false]], "__init__() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.__init__", false]], "__init__() (data_juicer.utils.model_utils.apimodel method)": [[14, "data_juicer.utils.model_utils.APIModel.__init__", false]], "__init__() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.__init__", false]], "actorbackend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend", false]], "add_message() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message", false]], "add_message() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message", false]], "add_parameters() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.add_parameters", false]], "add_suffix_to_filename() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.add_suffix_to_filename", false]], "add_suffixes() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.add_suffixes", false]], "aggregator (class in data_juicer.ops)": [[5, "data_juicer.ops.Aggregator", false]], "aggregator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Aggregator", false]], "alnum_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.alnum_ratio", false]], "alpha_token_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio", false]], "alphanumericfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AlphanumericFilter", false]], "alphanumericfilter (class in data_juicer.ops.filter.alphanumeric_filter)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter", false]], "analyze() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.analyze", false]], "analyze_resource_util_list() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.analyze_resource_util_list", false]], "analyze_single_resource_util() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.analyze_single_resource_util", false]], "apimodel (class in data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.APIModel", false]], "aspect_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.aspect_ratios", false]], "assertdatasetequal() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual", false]], "attribute_descriptions (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.attribute_descriptions", false]], "attribute_summary() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary", false]], "attribute_summary() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary", false]], "attribute_support_texts (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.attribute_support_texts", false]], "attributes (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.attributes", false]], "audio (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.audio", false]], "audio_duration (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_duration", false]], "audio_nmf_snr (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr", false]], "audio_sizes (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_sizes", false]], "audiodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioDurationFilter", false]], "audiodurationfilter (class in data_juicer.ops.filter.audio_duration_filter)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter", false]], "audioffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper", false]], "audioffmpegwrappedmapper (class in data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper", false]], "audionmfsnrfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter", false]], "audionmfsnrfilter (class in data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter", false]], "audiosizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioSizeFilter", false]], "audiosizefilter (class in data_juicer.ops.filter.audio_size_filter)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter", false]], "autoinstaller (class in data_juicer.utils.auto_install_utils)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller", false]], "av_stream_thread_type (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE", false]], "avaliable_detectors (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper attribute)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors", false]], "avaliable_detectors (data_juicer.ops.mapper.videosplitbyscenemapper attribute)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors", false]], "averagelinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter", false]], "averagelinelengthfilter (class in data_juicer.ops.filter.average_line_length_filter)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter", false]], "avg_line_length (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.avg_line_length", false]], "avg_split_string_list_under_limit() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.avg_split_string_list_under_limit", false]], "backend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend", false]], "basecompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.BaseCompressor", false]], "baseformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.BaseFormatter", false]], "batch_meta (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.batch_meta", false]], "batchmetakeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.BatchMetaKeys", false]], "build_input() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.build_input", false]], "cachecompressmanager (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CacheCompressManager", false]], "calc_minhash() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.calc_minhash", false]], "calc_minhash() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.calc_minhash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_document_deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_image_deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_video_deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash", false]], "calculate_np() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.calculate_np", false]], "calculate_resized_dimensions() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.calculate_resized_dimensions", false]], "calibrateqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper", false]], "calibrateqamapper (class in data_juicer.ops.mapper.calibrate_qa_mapper)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper", false]], "calibratequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper", false]], "calibratequerymapper (class in data_juicer.ops.mapper.calibrate_query_mapper)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper", false]], "calibrateresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper", false]], "calibrateresponsemapper (class in data_juicer.ops.mapper.calibrate_response_mapper)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper", false]], "call_gpt_vision_api() (in module data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api", false]], "catch_map_batches_exception() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.catch_map_batches_exception", false]], "catch_map_single_exception() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.catch_map_single_exception", false]], "category_to_hist() (data_juicer.analysis.measure.relatedttestmeasure static method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist", false]], "char_rep_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio", false]], "characterrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter", false]], "characterrepetitionfilter (class in data_juicer.ops.filter.character_repetition_filter)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter", false]], "check() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.check", false]], "check_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt", false]], "check_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.check_model", false]], "check_ops_to_skip() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip", false]], "checkpointmanager (class in data_juicer.utils.ckpt_utils)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager", false]], "chineseconvertmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper", false]], "chineseconvertmapper (class in data_juicer.ops.mapper.chinese_convert_mapper)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper", false]], "cleancopyrightmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper", false]], "cleancopyrightmapper (class in data_juicer.ops.mapper.clean_copyright_mapper)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper", false]], "cleanemailmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanEmailMapper", false]], "cleanemailmapper (class in data_juicer.ops.mapper.clean_email_mapper)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper", false]], "cleanhtmlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper", false]], "cleanhtmlmapper (class in data_juicer.ops.mapper.clean_html_mapper)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper", false]], "cleanipmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanIpMapper", false]], "cleanipmapper (class in data_juicer.ops.mapper.clean_ip_mapper)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper", false]], "cleanlinksmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanLinksMapper", false]], "cleanlinksmapper (class in data_juicer.ops.mapper.clean_links_mapper)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper", false]], "cleanup_cache_files() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files", false]], "cleanup_compressed_cache_files() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.cleanup_compressed_cache_files", false]], "close_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.close_video", false]], "collect() (data_juicer.analysis.collector.texttokendistcollector method)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector.collect", false]], "columnwiseanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.ColumnWiseAnalysis", false]], "columnwiseanalysis (class in data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis", false]], "compress() (data_juicer.utils.compress.basecompressor static method)": [[14, "data_juicer.utils.compress.BaseCompressor.compress", false]], "compress() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.compress", false]], "compress() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.compress", false]], "compress() (data_juicer.utils.compress.compressor class method)": [[14, "data_juicer.utils.compress.Compressor.compress", false]], "compress() (data_juicer.utils.compress.gzipcompressor static method)": [[14, "data_juicer.utils.compress.GzipCompressor.compress", false]], "compress() (data_juicer.utils.compress.lz4compressor static method)": [[14, "data_juicer.utils.compress.Lz4Compressor.compress", false]], "compress() (data_juicer.utils.compress.zstdcompressor static method)": [[14, "data_juicer.utils.compress.ZstdCompressor.compress", false]], "compress() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.compress", false]], "compressionoff (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CompressionOff", false]], "compressmanager (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CompressManager", false]], "compressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Compressor", false]], "compressors (data_juicer.utils.compress.compressor attribute)": [[14, "data_juicer.utils.compress.Compressor.compressors", false]], "compute() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute", false]], "compute() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.compute", false]], "compute_flow() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow", false]], "compute_hash() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash", false]], "compute_nmf_snr() (in module data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr", false]], "compute_stats_batched() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched", false]], "compute_stats_single() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single", false]], "config_backup() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.config_backup", false]], "context (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.context", false]], "convert_arrow_to_python() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_arrow_to_python", false]], "convert_dict_list_to_list_dict() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_dict_list_to_list_dict", false]], "convert_list_dict_to_dict_list() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_list_dict_to_dict_list", false]], "copy_data() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.copy_data", false]], "create_directory_if_not_exists() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.create_directory_if_not_exists", false]], "create_replacer() (in module data_juicer.ops.mapper.video_split_by_duration_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer", false]], "create_replacer() (in module data_juicer.ops.mapper.video_split_by_key_frame_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer", false]], "crossentropymeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure", false]], "csvformatter (class in data_juicer.format)": [[4, "data_juicer.format.CsvFormatter", false]], "csvformatter (class in data_juicer.format.csv_formatter)": [[4, "data_juicer.format.csv_formatter.CsvFormatter", false]], "cuda_device_count() (in module data_juicer)": [[0, "data_juicer.cuda_device_count", false]], "cut_video_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.cut_video_by_seconds", false]], "data_juicer": [[0, "module-data_juicer", false]], "data_juicer.analysis": [[1, "module-data_juicer.analysis", false]], "data_juicer.analysis.collector": [[1, "module-data_juicer.analysis.collector", false]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis", false]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis", false]], "data_juicer.analysis.draw": [[1, "module-data_juicer.analysis.draw", false]], "data_juicer.analysis.measure": [[1, "module-data_juicer.analysis.measure", false]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis", false]], "data_juicer.config": [[2, "module-data_juicer.config", false]], "data_juicer.config.config": [[2, "module-data_juicer.config.config", false]], "data_juicer.core.monitor": [[3, "module-data_juicer.core.monitor", false]], "data_juicer.format": [[4, "module-data_juicer.format", false]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter", false]], "data_juicer.format.empty_formatter": [[4, "module-data_juicer.format.empty_formatter", false]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter", false]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter", false]], "data_juicer.format.load": [[4, "module-data_juicer.format.load", false]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter", false]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter", false]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter", false]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter", false]], "data_juicer.ops": [[5, "module-data_juicer.ops", false]], "data_juicer.ops.aggregator": [[6, "module-data_juicer.ops.aggregator", false]], "data_juicer.ops.aggregator.entity_attribute_aggregator": [[6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator", false]], "data_juicer.ops.aggregator.meta_tags_aggregator": [[6, "module-data_juicer.ops.aggregator.meta_tags_aggregator", false]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator": [[6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator", false]], "data_juicer.ops.aggregator.nested_aggregator": [[6, "module-data_juicer.ops.aggregator.nested_aggregator", false]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op", false]], "data_juicer.ops.common": [[7, "module-data_juicer.ops.common", false]], "data_juicer.ops.common.helper_func": [[7, "module-data_juicer.ops.common.helper_func", false]], "data_juicer.ops.common.special_characters": [[7, "module-data_juicer.ops.common.special_characters", false]], "data_juicer.ops.deduplicator": [[8, "module-data_juicer.ops.deduplicator", false]], "data_juicer.ops.deduplicator.document_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_deduplicator", false]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator", false]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator", false]], "data_juicer.ops.deduplicator.image_deduplicator": [[8, "module-data_juicer.ops.deduplicator.image_deduplicator", false]], "data_juicer.ops.deduplicator.ray_basic_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator", false]], "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator", false]], "data_juicer.ops.deduplicator.ray_document_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator", false]], "data_juicer.ops.deduplicator.ray_image_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator", false]], "data_juicer.ops.deduplicator.ray_video_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator", false]], "data_juicer.ops.deduplicator.video_deduplicator": [[8, "module-data_juicer.ops.deduplicator.video_deduplicator", false]], "data_juicer.ops.filter": [[9, "module-data_juicer.ops.filter", false]], "data_juicer.ops.filter.alphanumeric_filter": [[9, "module-data_juicer.ops.filter.alphanumeric_filter", false]], "data_juicer.ops.filter.audio_duration_filter": [[9, "module-data_juicer.ops.filter.audio_duration_filter", false]], "data_juicer.ops.filter.audio_nmf_snr_filter": [[9, "module-data_juicer.ops.filter.audio_nmf_snr_filter", false]], "data_juicer.ops.filter.audio_size_filter": [[9, "module-data_juicer.ops.filter.audio_size_filter", false]], "data_juicer.ops.filter.average_line_length_filter": [[9, "module-data_juicer.ops.filter.average_line_length_filter", false]], "data_juicer.ops.filter.character_repetition_filter": [[9, "module-data_juicer.ops.filter.character_repetition_filter", false]], "data_juicer.ops.filter.flagged_words_filter": [[9, "module-data_juicer.ops.filter.flagged_words_filter", false]], "data_juicer.ops.filter.image_aesthetics_filter": [[9, "module-data_juicer.ops.filter.image_aesthetics_filter", false]], "data_juicer.ops.filter.image_aspect_ratio_filter": [[9, "module-data_juicer.ops.filter.image_aspect_ratio_filter", false]], "data_juicer.ops.filter.image_face_count_filter": [[9, "module-data_juicer.ops.filter.image_face_count_filter", false]], "data_juicer.ops.filter.image_face_ratio_filter": [[9, "module-data_juicer.ops.filter.image_face_ratio_filter", false]], "data_juicer.ops.filter.image_nsfw_filter": [[9, "module-data_juicer.ops.filter.image_nsfw_filter", false]], "data_juicer.ops.filter.image_pair_similarity_filter": [[9, "module-data_juicer.ops.filter.image_pair_similarity_filter", false]], "data_juicer.ops.filter.image_shape_filter": [[9, "module-data_juicer.ops.filter.image_shape_filter", false]], "data_juicer.ops.filter.image_size_filter": [[9, "module-data_juicer.ops.filter.image_size_filter", false]], "data_juicer.ops.filter.image_text_matching_filter": [[9, "module-data_juicer.ops.filter.image_text_matching_filter", false]], "data_juicer.ops.filter.image_text_similarity_filter": [[9, "module-data_juicer.ops.filter.image_text_similarity_filter", false]], "data_juicer.ops.filter.image_watermark_filter": [[9, "module-data_juicer.ops.filter.image_watermark_filter", false]], "data_juicer.ops.filter.language_id_score_filter": [[9, "module-data_juicer.ops.filter.language_id_score_filter", false]], "data_juicer.ops.filter.maximum_line_length_filter": [[9, "module-data_juicer.ops.filter.maximum_line_length_filter", false]], "data_juicer.ops.filter.perplexity_filter": [[9, "module-data_juicer.ops.filter.perplexity_filter", false]], "data_juicer.ops.filter.phrase_grounding_recall_filter": [[9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter", false]], "data_juicer.ops.filter.special_characters_filter": [[9, "module-data_juicer.ops.filter.special_characters_filter", false]], "data_juicer.ops.filter.specified_field_filter": [[9, "module-data_juicer.ops.filter.specified_field_filter", false]], "data_juicer.ops.filter.specified_numeric_field_filter": [[9, "module-data_juicer.ops.filter.specified_numeric_field_filter", false]], "data_juicer.ops.filter.stopwords_filter": [[9, "module-data_juicer.ops.filter.stopwords_filter", false]], "data_juicer.ops.filter.suffix_filter": [[9, "module-data_juicer.ops.filter.suffix_filter", false]], "data_juicer.ops.filter.text_action_filter": [[9, "module-data_juicer.ops.filter.text_action_filter", false]], "data_juicer.ops.filter.text_entity_dependency_filter": [[9, "module-data_juicer.ops.filter.text_entity_dependency_filter", false]], "data_juicer.ops.filter.text_length_filter": [[9, "module-data_juicer.ops.filter.text_length_filter", false]], "data_juicer.ops.filter.token_num_filter": [[9, "module-data_juicer.ops.filter.token_num_filter", false]], "data_juicer.ops.filter.video_aesthetics_filter": [[9, "module-data_juicer.ops.filter.video_aesthetics_filter", false]], "data_juicer.ops.filter.video_aspect_ratio_filter": [[9, "module-data_juicer.ops.filter.video_aspect_ratio_filter", false]], "data_juicer.ops.filter.video_duration_filter": [[9, "module-data_juicer.ops.filter.video_duration_filter", false]], "data_juicer.ops.filter.video_frames_text_similarity_filter": [[9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter", false]], "data_juicer.ops.filter.video_motion_score_filter": [[9, "module-data_juicer.ops.filter.video_motion_score_filter", false]], "data_juicer.ops.filter.video_motion_score_raft_filter": [[9, "module-data_juicer.ops.filter.video_motion_score_raft_filter", false]], "data_juicer.ops.filter.video_nsfw_filter": [[9, "module-data_juicer.ops.filter.video_nsfw_filter", false]], "data_juicer.ops.filter.video_ocr_area_ratio_filter": [[9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter", false]], "data_juicer.ops.filter.video_resolution_filter": [[9, "module-data_juicer.ops.filter.video_resolution_filter", false]], "data_juicer.ops.filter.video_tagging_from_frames_filter": [[9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter", false]], "data_juicer.ops.filter.video_watermark_filter": [[9, "module-data_juicer.ops.filter.video_watermark_filter", false]], "data_juicer.ops.filter.word_repetition_filter": [[9, "module-data_juicer.ops.filter.word_repetition_filter", false]], "data_juicer.ops.filter.words_num_filter": [[9, "module-data_juicer.ops.filter.words_num_filter", false]], "data_juicer.ops.grouper": [[10, "module-data_juicer.ops.grouper", false]], "data_juicer.ops.grouper.key_value_grouper": [[10, "module-data_juicer.ops.grouper.key_value_grouper", false]], "data_juicer.ops.grouper.naive_grouper": [[10, "module-data_juicer.ops.grouper.naive_grouper", false]], "data_juicer.ops.grouper.naive_reverse_grouper": [[10, "module-data_juicer.ops.grouper.naive_reverse_grouper", false]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load", false]], "data_juicer.ops.mapper": [[11, "module-data_juicer.ops.mapper", false]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper": [[11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper", false]], "data_juicer.ops.mapper.calibrate_qa_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_qa_mapper", false]], "data_juicer.ops.mapper.calibrate_query_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_query_mapper", false]], "data_juicer.ops.mapper.calibrate_response_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_response_mapper", false]], "data_juicer.ops.mapper.chinese_convert_mapper": [[11, "module-data_juicer.ops.mapper.chinese_convert_mapper", false]], "data_juicer.ops.mapper.clean_copyright_mapper": [[11, "module-data_juicer.ops.mapper.clean_copyright_mapper", false]], "data_juicer.ops.mapper.clean_email_mapper": [[11, "module-data_juicer.ops.mapper.clean_email_mapper", false]], "data_juicer.ops.mapper.clean_html_mapper": [[11, "module-data_juicer.ops.mapper.clean_html_mapper", false]], "data_juicer.ops.mapper.clean_ip_mapper": [[11, "module-data_juicer.ops.mapper.clean_ip_mapper", false]], "data_juicer.ops.mapper.clean_links_mapper": [[11, "module-data_juicer.ops.mapper.clean_links_mapper", false]], "data_juicer.ops.mapper.dialog_intent_detection_mapper": [[11, "module-data_juicer.ops.mapper.dialog_intent_detection_mapper", false]], "data_juicer.ops.mapper.dialog_sentiment_detection_mapper": [[11, "module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper", false]], "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper": [[11, "module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper", false]], "data_juicer.ops.mapper.dialog_topic_detection_mapper": [[11, "module-data_juicer.ops.mapper.dialog_topic_detection_mapper", false]], "data_juicer.ops.mapper.expand_macro_mapper": [[11, "module-data_juicer.ops.mapper.expand_macro_mapper", false]], "data_juicer.ops.mapper.extract_entity_attribute_mapper": [[11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper", false]], "data_juicer.ops.mapper.extract_entity_relation_mapper": [[11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper", false]], "data_juicer.ops.mapper.extract_event_mapper": [[11, "module-data_juicer.ops.mapper.extract_event_mapper", false]], "data_juicer.ops.mapper.extract_keyword_mapper": [[11, "module-data_juicer.ops.mapper.extract_keyword_mapper", false]], "data_juicer.ops.mapper.extract_nickname_mapper": [[11, "module-data_juicer.ops.mapper.extract_nickname_mapper", false]], "data_juicer.ops.mapper.extract_support_text_mapper": [[11, "module-data_juicer.ops.mapper.extract_support_text_mapper", false]], "data_juicer.ops.mapper.fix_unicode_mapper": [[11, "module-data_juicer.ops.mapper.fix_unicode_mapper", false]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper": [[11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper", false]], "data_juicer.ops.mapper.generate_qa_from_text_mapper": [[11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper", false]], "data_juicer.ops.mapper.image_blur_mapper": [[11, "module-data_juicer.ops.mapper.image_blur_mapper", false]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper": [[11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper", false]], "data_juicer.ops.mapper.image_captioning_mapper": [[11, "module-data_juicer.ops.mapper.image_captioning_mapper", false]], "data_juicer.ops.mapper.image_diffusion_mapper": [[11, "module-data_juicer.ops.mapper.image_diffusion_mapper", false]], "data_juicer.ops.mapper.image_face_blur_mapper": [[11, "module-data_juicer.ops.mapper.image_face_blur_mapper", false]], "data_juicer.ops.mapper.image_tagging_mapper": [[11, "module-data_juicer.ops.mapper.image_tagging_mapper", false]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[11, "module-data_juicer.ops.mapper.nlpaug_en_mapper", false]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper", false]], "data_juicer.ops.mapper.optimize_qa_mapper": [[11, "module-data_juicer.ops.mapper.optimize_qa_mapper", false]], "data_juicer.ops.mapper.optimize_query_mapper": [[11, "module-data_juicer.ops.mapper.optimize_query_mapper", false]], "data_juicer.ops.mapper.optimize_response_mapper": [[11, "module-data_juicer.ops.mapper.optimize_response_mapper", false]], "data_juicer.ops.mapper.pair_preference_mapper": [[11, "module-data_juicer.ops.mapper.pair_preference_mapper", false]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper", false]], "data_juicer.ops.mapper.python_file_mapper": [[11, "module-data_juicer.ops.mapper.python_file_mapper", false]], "data_juicer.ops.mapper.python_lambda_mapper": [[11, "module-data_juicer.ops.mapper.python_lambda_mapper", false]], "data_juicer.ops.mapper.query_intent_detection_mapper": [[11, "module-data_juicer.ops.mapper.query_intent_detection_mapper", false]], "data_juicer.ops.mapper.query_sentiment_detection_mapper": [[11, "module-data_juicer.ops.mapper.query_sentiment_detection_mapper", false]], "data_juicer.ops.mapper.query_topic_detection_mapper": [[11, "module-data_juicer.ops.mapper.query_topic_detection_mapper", false]], "data_juicer.ops.mapper.relation_identity_mapper": [[11, "module-data_juicer.ops.mapper.relation_identity_mapper", false]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[11, "module-data_juicer.ops.mapper.remove_bibliography_mapper", false]], "data_juicer.ops.mapper.remove_comments_mapper": [[11, "module-data_juicer.ops.mapper.remove_comments_mapper", false]], "data_juicer.ops.mapper.remove_header_mapper": [[11, "module-data_juicer.ops.mapper.remove_header_mapper", false]], "data_juicer.ops.mapper.remove_long_words_mapper": [[11, "module-data_juicer.ops.mapper.remove_long_words_mapper", false]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper": [[11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper", false]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper": [[11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper", false]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper", false]], "data_juicer.ops.mapper.remove_table_text_mapper": [[11, "module-data_juicer.ops.mapper.remove_table_text_mapper", false]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper", false]], "data_juicer.ops.mapper.replace_content_mapper": [[11, "module-data_juicer.ops.mapper.replace_content_mapper", false]], "data_juicer.ops.mapper.sentence_split_mapper": [[11, "module-data_juicer.ops.mapper.sentence_split_mapper", false]], "data_juicer.ops.mapper.text_chunk_mapper": [[11, "module-data_juicer.ops.mapper.text_chunk_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_video_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper", false]], "data_juicer.ops.mapper.video_extract_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_extract_frames_mapper", false]], "data_juicer.ops.mapper.video_face_blur_mapper": [[11, "module-data_juicer.ops.mapper.video_face_blur_mapper", false]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper": [[11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper", false]], "data_juicer.ops.mapper.video_remove_watermark_mapper": [[11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper", false]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper": [[11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper", false]], "data_juicer.ops.mapper.video_resize_resolution_mapper": [[11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper", false]], "data_juicer.ops.mapper.video_split_by_duration_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper", false]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper", false]], "data_juicer.ops.mapper.video_split_by_scene_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper", false]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper": [[11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper", false]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper", false]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper", false]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion", false]], "data_juicer.ops.selector": [[12, "module-data_juicer.ops.selector", false]], "data_juicer.ops.selector.frequency_specified_field_selector": [[12, "module-data_juicer.ops.selector.frequency_specified_field_selector", false]], "data_juicer.ops.selector.random_selector": [[12, "module-data_juicer.ops.selector.random_selector", false]], "data_juicer.ops.selector.range_specified_field_selector": [[12, "module-data_juicer.ops.selector.range_specified_field_selector", false]], "data_juicer.ops.selector.tags_specified_field_selector": [[12, "module-data_juicer.ops.selector.tags_specified_field_selector", false]], "data_juicer.ops.selector.topk_specified_field_selector": [[12, "module-data_juicer.ops.selector.topk_specified_field_selector", false]], "data_juicer.tools": [[13, "module-data_juicer.tools", false]], "data_juicer.utils": [[14, "module-data_juicer.utils", false]], "data_juicer.utils.asset_utils": [[14, "module-data_juicer.utils.asset_utils", false]], "data_juicer.utils.auto_install_mapping": [[14, "module-data_juicer.utils.auto_install_mapping", false]], "data_juicer.utils.auto_install_utils": [[14, "module-data_juicer.utils.auto_install_utils", false]], "data_juicer.utils.availability_utils": [[14, "module-data_juicer.utils.availability_utils", false]], "data_juicer.utils.cache_utils": [[14, "module-data_juicer.utils.cache_utils", false]], "data_juicer.utils.ckpt_utils": [[14, "module-data_juicer.utils.ckpt_utils", false]], "data_juicer.utils.common_utils": [[14, "module-data_juicer.utils.common_utils", false]], "data_juicer.utils.compress": [[14, "module-data_juicer.utils.compress", false]], "data_juicer.utils.constant": [[14, "module-data_juicer.utils.constant", false]], "data_juicer.utils.file_utils": [[14, "module-data_juicer.utils.file_utils", false]], "data_juicer.utils.fingerprint_utils": [[14, "module-data_juicer.utils.fingerprint_utils", false]], "data_juicer.utils.lazy_loader": [[14, "module-data_juicer.utils.lazy_loader", false]], "data_juicer.utils.logger_utils": [[14, "module-data_juicer.utils.logger_utils", false]], "data_juicer.utils.mm_utils": [[14, "module-data_juicer.utils.mm_utils", false]], "data_juicer.utils.model_utils": [[14, "module-data_juicer.utils.model_utils", false]], "data_juicer.utils.process_utils": [[14, "module-data_juicer.utils.process_utils", false]], "data_juicer.utils.registry": [[14, "module-data_juicer.utils.registry", false]], "data_juicer.utils.resource_utils": [[14, "module-data_juicer.utils.resource_utils", false]], "data_juicer.utils.unittest_utils": [[14, "module-data_juicer.utils.unittest_utils", false]], "datajuicertestcasebase (class in data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase", false]], "dataset_cache_control() (in module data_juicer.utils.cache_utils)": [[14, "data_juicer.utils.cache_utils.dataset_cache_control", false]], "datasetcachecontrol (class in data_juicer.utils.cache_utils)": [[14, "data_juicer.utils.cache_utils.DatasetCacheControl", false]], "decompress() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.decompress", false]], "decompress() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.decompress", false]], "decompress() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.decompress", false]], "deduplicator (class in data_juicer.ops)": [[5, "data_juicer.ops.Deduplicator", false]], "deduplicator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Deduplicator", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_pattern (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_PATTERN", false]], "default_analysis_template (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_analysis_template (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_ANALYSIS_TEMPLATE", false]], "default_attr_pattern_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE", false]], "default_attr_pattern_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_candidates_template (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_CANDIDATES_TEMPLATE", false]], "default_completion_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_continue_prompt (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT", false]], "default_continue_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT", false]], "default_demon_pattern (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN", false]], "default_demon_pattern (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN", false]], "default_entity_pattern (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN", false]], "default_entity_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN", false]], "default_entity_types (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES", false]], "default_entity_types (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES", false]], "default_example_prompt (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_example_prompt (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_example_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE", false]], "default_example_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE", false]], "default_if_loop_prompt (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT", false]], "default_if_loop_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT", false]], "default_input_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_intensity_pattern (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN", false]], "default_intensity_pattern (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_PATTERN", false]], "default_intensity_template (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE", false]], "default_intensity_template (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_INTENSITY_TEMPLATE", false]], "default_labels_pattern (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_pattern (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_pattern (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_pattern (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_pattern (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_pattern (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_PATTERN", false]], "default_labels_template (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_labels_template (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_labels_template (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_labels_template (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_labels_template (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_labels_template (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_LABELS_TEMPLATE", false]], "default_output_pattern (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_query_template (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_QUERY_TEMPLATE", false]], "default_record_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER", false]], "default_record_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER", false]], "default_reference_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE", false]], "default_reference_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE", false]], "default_relation_pattern (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN", false]], "default_relation_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN", false]], "default_response_template (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_response_template (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_RESPONSE_TEMPLATE", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_system_prompt (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_query_mapper.calibratequerymapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_response_mapper.calibrateresponsemapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibratequerymapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateresponsemapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialogintentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialogsentimentdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialogsentimentintensitymapper attribute)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.dialogtopicdetectionmapper attribute)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_query_mapper.optimizequerymapper attribute)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_response_mapper.optimizeresponsemapper attribute)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizequerymapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeresponsemapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_tag_template (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE", false]], "default_tag_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TAG_TEMPLATE", false]], "default_target_tag_template (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE", false]], "default_target_tag_template (data_juicer.ops.aggregator.metatagsaggregator attribute)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.DEFAULT_TARGET_TAG_TEMPLATE", false]], "default_tuple_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER", false]], "default_tuple_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER", false]], "detect_faces() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.detect_faces", false]], "dialog_intent_labels (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_intent_labels", false]], "dialog_intent_labels_analysis (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_intent_labels_analysis", false]], "dialog_sentiment_intensity (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity", false]], "dialog_sentiment_intensity_analysis (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_sentiment_intensity_analysis", false]], "dialog_sentiment_labels (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels", false]], "dialog_sentiment_labels_analysis (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_sentiment_labels_analysis", false]], "dialog_topic_labels (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_topic_labels", false]], "dialog_topic_labels_analysis (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.dialog_topic_labels_analysis", false]], "dialogintentdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper", false]], "dialogintentdetectionmapper (class in data_juicer.ops.mapper.dialog_intent_detection_mapper)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper", false]], "dialogsentimentdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper", false]], "dialogsentimentdetectionmapper (class in data_juicer.ops.mapper.dialog_sentiment_detection_mapper)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper", false]], "dialogsentimentintensitymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper", false]], "dialogsentimentintensitymapper (class in data_juicer.ops.mapper.dialog_sentiment_intensity_mapper)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper", false]], "dialogtopicdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper", false]], "dialogtopicdetectionmapper (class in data_juicer.ops.mapper.dialog_topic_detection_mapper)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper", false]], "dict_to_hash() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.dict_to_hash", false]], "dispatch (data_juicer.utils.fingerprint_utils.hasher attribute)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.dispatch", false]], "display_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.display_config", false]], "diversityanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.DiversityAnalysis", false]], "diversityanalysis (class in data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis", false]], "dj_configs (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.dj_configs", false]], "documentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator", false]], "documentdeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator", false]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator", false]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator", false]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator", false]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator", false]], "draw_box() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box", false]], "draw_box() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_box", false]], "draw_heatmap() (in module data_juicer.analysis.draw)": [[1, "data_juicer.analysis.draw.draw_heatmap", false]], "draw_hist() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_hist() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_resource_util_graph() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.draw_resource_util_graph", false]], "draw_wordcloud() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "draw_wordcloud() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "dynamic_fields (data_juicer.core.monitor.monitor attribute)": [[3, "data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS", false]], "empty_hash_value (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE", false]], "empty_hash_value (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE", false]], "empty_hash_value (data_juicer.ops.deduplicator.raybasicdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE", false]], "empty_hash_value (data_juicer.ops.deduplicator.raybtsminhashdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.EMPTY_HASH_VALUE", false]], "empty_history() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.empty_history", false]], "emptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.EmptyFormatter", false]], "emptyformatter (class in data_juicer.format.empty_formatter)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter", false]], "entity (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.entity", false]], "entity_attribute (data_juicer.utils.constant.batchmetakeys attribute)": [[14, "data_juicer.utils.constant.BatchMetaKeys.entity_attribute", false]], "entity_description (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.entity_description", false]], "entity_name (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.entity_name", false]], "entity_type (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.entity_type", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator.entity_attribute_aggregator)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator", false]], "entropymeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.EntropyMeasure", false]], "eoc (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.eoc", false]], "event_description (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.event_description", false]], "expandmacromapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper", false]], "expandmacromapper (class in data_juicer.ops.mapper.expand_macro_mapper)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper", false]], "export_config() (in module data_juicer.config)": [[2, "data_juicer.config.export_config", false]], "export_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.export_config", false]], "extra_configs (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.extra_configs", false]], "extract() (data_juicer.utils.compress.extractor class method)": [[14, "data_juicer.utils.compress.Extractor.extract", false]], "extract_audio_from_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_audio_from_video", false]], "extract_key_frames() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_key_frames", false]], "extract_key_frames_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_key_frames_by_seconds", false]], "extract_txt_from_docx() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_docx", false]], "extract_txt_from_pdf() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_pdf", false]], "extract_video_frames_uniformly() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_video_frames_uniformly", false]], "extract_video_frames_uniformly_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds", false]], "extractentityattributemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper", false]], "extractentityattributemapper (class in data_juicer.ops.mapper.extract_entity_attribute_mapper)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper", false]], "extractentityrelationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper", false]], "extractentityrelationmapper (class in data_juicer.ops.mapper.extract_entity_relation_mapper)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper", false]], "extracteventmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEventMapper", false]], "extracteventmapper (class in data_juicer.ops.mapper.extract_event_mapper)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper", false]], "extractkeywordmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper", false]], "extractkeywordmapper (class in data_juicer.ops.mapper.extract_keyword_mapper)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper", false]], "extractnicknamemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper", false]], "extractnicknamemapper (class in data_juicer.ops.mapper.extract_nickname_mapper)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper", false]], "extractor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Extractor", false]], "extractsupporttextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper", false]], "extractsupporttextmapper (class in data_juicer.ops.mapper.extract_support_text_mapper)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper", false]], "face_counts (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_counts", false]], "face_detections (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_detections", false]], "face_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_ratios", false]], "fields (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.Fields", false]], "filelock (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.FileLock", false]], "filter (class in data_juicer.ops)": [[5, "data_juicer.ops.Filter", false]], "filter (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Filter", false]], "filter_with_union_find() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find", false]], "filter_with_union_find() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.filter_with_union_find", false]], "find() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.find", false]], "find_files_with_suffix() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.find_files_with_suffix", false]], "find_noun_phrases() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases", false]], "find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj", false]], "find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string", false]], "fixunicodemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper", false]], "fixunicodemapper (class in data_juicer.ops.mapper.fix_unicode_mapper)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper", false]], "flagged_words_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio", false]], "flaggedwordfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.FlaggedWordFilter", false]], "flaggedwordfilter (class in data_juicer.ops.filter.flagged_words_filter)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter", false]], "flush() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.flush", false]], "follow_read() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.follow_read", false]], "format_cache_file_name() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.format_cache_file_name", false]], "free_models() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.free_models", false]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector", false]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector.frequency_specified_field_selector)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector", false]], "fuse_filter_group() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_filter_group", false]], "fuse_operators() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_operators", false]], "fusedfilter (class in data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.FusedFilter", false]], "generate_dataset() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset", false]], "generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.generate_fingerprint", false]], "generateqafromexamplesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper", false]], "generateqafromexamplesmapper (class in data_juicer.ops.mapper.generate_qa_from_examples_mapper)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper", false]], "generateqafromtextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper", false]], "generateqafromtextmapper (class in data_juicer.ops.mapper.generate_qa_from_text_mapper)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper", false]], "get() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.get", false]], "get_access_log() (data_juicer.utils.constant.statskeysmeta method)": [[14, "data_juicer.utils.constant.StatsKeysMeta.get_access_log", false]], "get_backup_model_link() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.get_backup_model_link", false]], "get_caller_name() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.get_caller_name", false]], "get_cpu_count() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.get_cpu_count", false]], "get_cpu_utilization() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.get_cpu_utilization", false]], "get_decoded_frames_from_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_decoded_frames_from_video", false]], "get_diversity() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.get_diversity", false]], "get_file_size() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_file_size", false]], "get_hash_method() (in module data_juicer.ops.deduplicator.image_deduplicator)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.get_hash_method", false]], "get_hash_method() (in module data_juicer.ops.deduplicator.ray_image_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method", false]], "get_init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.get_init_configs", false]], "get_init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.get_init_configs", false]], "get_key_frame_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_key_frame_seconds", false]], "get_left_process_list() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list", false]], "get_log_file_path() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.get_log_file_path", false]], "get_min_cuda_memory() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.get_min_cuda_memory", false]], "get_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.get_model", false]], "get_reader() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader", false]], "get_reader() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader", false]], "get_row_col() (in module data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.get_row_col", false]], "get_sentences_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_sentences_from_document", false]], "get_sentences_from_document() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.get_sentences_from_document", false]], "get_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_special_tokens", false]], "get_split_key_frame() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame", false]], "get_split_key_frame() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame", false]], "get_text_chunks() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks", false]], "get_text_chunks() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.get_text_chunks", false]], "get_video_duration() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_video_duration", false]], "get_words_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_words_from_document", false]], "get_words_from_document() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.get_words_from_document", false]], "getvalue() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.getvalue", false]], "grouper (class in data_juicer.ops)": [[5, "data_juicer.ops.Grouper", false]], "grouper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Grouper", false]], "gzipcompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.GzipCompressor", false]], "hash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.hash", false]], "hash() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash", false]], "hash_bytes() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash_bytes", false]], "hash_default() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash_default", false]], "hasher (class in data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.Hasher", false]], "hashkeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.HashKeys", false]], "hexdigest() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hexdigest", false]], "hiddenprints (class in data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.HiddenPrints", false]], "hook (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.hook", false]], "image (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.image", false]], "image_aesthetics_scores (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores", false]], "image_byte_to_base64() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.image_byte_to_base64", false]], "image_height (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_height", false]], "image_nsfw_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score", false]], "image_pair_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity", false]], "image_path_to_base64() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.image_path_to_base64", false]], "image_sizes (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_sizes", false]], "image_tags (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.image_tags", false]], "image_text_matching_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score", false]], "image_text_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_text_similarity", false]], "image_watermark_prob (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob", false]], "image_width (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_width", false]], "imageaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter", false]], "imageaestheticsfilter (class in data_juicer.ops.filter.image_aesthetics_filter)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter", false]], "imageaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter", false]], "imageaspectratiofilter (class in data_juicer.ops.filter.image_aspect_ratio_filter)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter", false]], "imageblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageBlurMapper", false]], "imageblurmapper (class in data_juicer.ops.mapper.image_blur_mapper)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper", false]], "imagecaptioningfromgpt4vmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper", false]], "imagecaptioningfromgpt4vmapper (class in data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper", false]], "imagecaptioningmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper", false]], "imagecaptioningmapper (class in data_juicer.ops.mapper.image_captioning_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper", false]], "imagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator", false]], "imagededuplicator (class in data_juicer.ops.deduplicator.image_deduplicator)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator", false]], "imagediffusionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper", false]], "imagediffusionmapper (class in data_juicer.ops.mapper.image_diffusion_mapper)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper", false]], "imagefaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper", false]], "imagefaceblurmapper (class in data_juicer.ops.mapper.image_face_blur_mapper)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper", false]], "imagefacecountfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter", false]], "imagefacecountfilter (class in data_juicer.ops.filter.image_face_count_filter)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter", false]], "imagefaceratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter", false]], "imagefaceratiofilter (class in data_juicer.ops.filter.image_face_ratio_filter)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter", false]], "imagehash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.imagehash", false]], "imagensfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageNSFWFilter", false]], "imagensfwfilter (class in data_juicer.ops.filter.image_nsfw_filter)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter", false]], "imagepairsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter", false]], "imagepairsimilarityfilter (class in data_juicer.ops.filter.image_pair_similarity_filter)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter", false]], "imageshapefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageShapeFilter", false]], "imageshapefilter (class in data_juicer.ops.filter.image_shape_filter)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter", false]], "imagesizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageSizeFilter", false]], "imagesizefilter (class in data_juicer.ops.filter.image_size_filter)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter", false]], "imagetaggingmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper", false]], "imagetaggingmapper (class in data_juicer.ops.mapper.image_tagging_mapper)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper", false]], "imagetextmatchingfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter", false]], "imagetextmatchingfilter (class in data_juicer.ops.filter.image_text_matching_filter)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter", false]], "imagetextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter", false]], "imagetextsimilarityfilter (class in data_juicer.ops.filter.image_text_similarity_filter)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter", false]], "imagewatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter", false]], "imagewatermarkfilter (class in data_juicer.ops.filter.image_watermark_filter)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter", false]], "init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.init_configs", false]], "init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_configs", false]], "init_setup_from_cfg() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_setup_from_cfg", false]], "insert_texts_after_placeholders() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.insert_texts_after_placeholders", false]], "install() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.install", false]], "intervars (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.InterVars", false]], "iou() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.iou", false]], "is_absolute_path() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.is_absolute_path", false]], "is_batched_op() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.is_batched_op", false]], "is_cuda_available() (in module data_juicer)": [[0, "data_juicer.is_cuda_available", false]], "is_float() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.is_float", false]], "is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.is_number", false]], "is_string_list() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.is_string_list", false]], "is_unique (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.is_unique", false]], "is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.actorbackend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend.is_unique", false]], "is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.backend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend.is_unique", false]], "is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.redisbackend method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend.is_unique", false]], "jobrequiredkeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.JobRequiredKeys", false]], "jsdivmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.JSDivMeasure", false]], "jsonformatter (class in data_juicer.format)": [[4, "data_juicer.format.JsonFormatter", false]], "jsonformatter (class in data_juicer.format.json_formatter)": [[4, "data_juicer.format.json_formatter.JsonFormatter", false]], "keyvaluegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.KeyValueGrouper", false]], "keyvaluegrouper (class in data_juicer.ops.grouper.key_value_grouper)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper", false]], "keyword (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.keyword", false]], "kldivmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.KLDivMeasure", false]], "lang (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.lang", false]], "lang_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.lang_score", false]], "languageidscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter", false]], "languageidscorefilter (class in data_juicer.ops.filter.language_id_score_filter)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter", false]], "lazyloader (class in data_juicer.utils.lazy_loader)": [[14, "data_juicer.utils.lazy_loader.LazyLoader", false]], "light_rag_extraction() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction", false]], "light_rag_extraction() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction", false]], "lines (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.lines", false]], "list() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.list", false]], "load_audio() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_audio", false]], "load_audios() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_audios", false]], "load_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt", false]], "load_data_with_context() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_data_with_context", false]], "load_dataset() (data_juicer.format.empty_formatter.emptyformatter method)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.empty_formatter.rayemptyformatter method)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.baseformatter method)": [[4, "data_juicer.format.formatter.BaseFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.load_dataset", false]], "load_formatter() (in module data_juicer.format)": [[4, "data_juicer.format.load_formatter", false]], "load_formatter() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.load_formatter", false]], "load_formatter() (in module data_juicer.format.load)": [[4, "data_juicer.format.load.load_formatter", false]], "load_image() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_image", false]], "load_image_byte() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_image_byte", false]], "load_images() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_images", false]], "load_images_byte() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_images_byte", false]], "load_ops() (in module data_juicer.ops)": [[5, "data_juicer.ops.load_ops", false]], "load_ops() (in module data_juicer.ops.load)": [[5, "data_juicer.ops.load.load_ops", false]], "load_ops_with_stats_meta() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.load_ops_with_stats_meta", false]], "load_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_video", false]], "load_videos() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_videos", false]], "load_words_asset() (in module data_juicer.utils.asset_utils)": [[14, "data_juicer.utils.asset_utils.load_words_asset", false]], "loaded_audios (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_audios", false]], "loaded_images (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_images", false]], "loaded_videos (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_videos", false]], "localformatter (class in data_juicer.format)": [[4, "data_juicer.format.LocalFormatter", false]], "localformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.LocalFormatter", false]], "lz4compressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Lz4Compressor", false]], "main_entities (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.main_entities", false]], "mapper (class in data_juicer.ops)": [[5, "data_juicer.ops.Mapper", false]], "mapper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Mapper", false]], "max_line_length (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.max_line_length", false]], "maximumlinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter", false]], "maximumlinelengthfilter (class in data_juicer.ops.filter.maximum_line_length_filter)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter", false]], "measure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.Measure", false]], "measure() (data_juicer.analysis.measure.crossentropymeasure method)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure.measure", false]], "measure() (data_juicer.analysis.measure.entropymeasure method)": [[1, "data_juicer.analysis.measure.EntropyMeasure.measure", false]], "measure() (data_juicer.analysis.measure.jsdivmeasure method)": [[1, "data_juicer.analysis.measure.JSDivMeasure.measure", false]], "measure() (data_juicer.analysis.measure.kldivmeasure method)": [[1, "data_juicer.analysis.measure.KLDivMeasure.measure", false]], "measure() (data_juicer.analysis.measure.measure method)": [[1, "data_juicer.analysis.measure.Measure.measure", false]], "measure() (data_juicer.analysis.measure.relatedttestmeasure method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.measure", false]], "merge() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge", false]], "merge() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge", false]], "merge_config() (in module data_juicer.config)": [[2, "data_juicer.config.merge_config", false]], "merge_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.merge_config", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.merge_on_whitespace_tab_newline", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline", false]], "merge_op_batch() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.merge_op_batch", false]], "merge_op_batch() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.merge_op_batch", false]], "meta (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.meta", false]], "meta_map() (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.meta_map", false]], "meta_map() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.meta_map", false]], "meta_name (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.meta_name", false]], "metakeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.MetaKeys", false]], "metatagsaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator", false]], "metatagsaggregator (class in data_juicer.ops.aggregator.meta_tags_aggregator)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator", false]], "minhash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.minhash", false]], "mixtureformatter (class in data_juicer.format)": [[4, "data_juicer.format.MixtureFormatter", false]], "mixtureformatter (class in data_juicer.format.mixture_formatter)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter", false]], "module": [[0, "module-data_juicer", false], [1, "module-data_juicer.analysis", false], [1, "module-data_juicer.analysis.collector", false], [1, "module-data_juicer.analysis.column_wise_analysis", false], [1, "module-data_juicer.analysis.diversity_analysis", false], [1, "module-data_juicer.analysis.draw", false], [1, "module-data_juicer.analysis.measure", false], [1, "module-data_juicer.analysis.overall_analysis", false], [2, "module-data_juicer.config", false], [2, "module-data_juicer.config.config", false], [3, "module-data_juicer.core.monitor", false], [4, "module-data_juicer.format", false], [4, "module-data_juicer.format.csv_formatter", false], [4, "module-data_juicer.format.empty_formatter", false], [4, "module-data_juicer.format.formatter", false], [4, "module-data_juicer.format.json_formatter", false], [4, "module-data_juicer.format.load", false], [4, "module-data_juicer.format.mixture_formatter", false], [4, "module-data_juicer.format.parquet_formatter", false], [4, "module-data_juicer.format.text_formatter", false], [4, "module-data_juicer.format.tsv_formatter", false], [5, "module-data_juicer.ops", false], [5, "module-data_juicer.ops.base_op", false], [5, "module-data_juicer.ops.load", false], [5, "module-data_juicer.ops.op_fusion", false], [6, "module-data_juicer.ops.aggregator", false], [6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator", false], [6, "module-data_juicer.ops.aggregator.meta_tags_aggregator", false], [6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator", false], [6, "module-data_juicer.ops.aggregator.nested_aggregator", false], [7, "module-data_juicer.ops.common", false], [7, "module-data_juicer.ops.common.helper_func", false], [7, "module-data_juicer.ops.common.special_characters", false], [8, "module-data_juicer.ops.deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.image_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.video_deduplicator", false], [9, "module-data_juicer.ops.filter", false], [9, "module-data_juicer.ops.filter.alphanumeric_filter", false], [9, "module-data_juicer.ops.filter.audio_duration_filter", false], [9, "module-data_juicer.ops.filter.audio_nmf_snr_filter", false], [9, "module-data_juicer.ops.filter.audio_size_filter", false], [9, "module-data_juicer.ops.filter.average_line_length_filter", false], [9, "module-data_juicer.ops.filter.character_repetition_filter", false], [9, "module-data_juicer.ops.filter.flagged_words_filter", false], [9, "module-data_juicer.ops.filter.image_aesthetics_filter", false], [9, "module-data_juicer.ops.filter.image_aspect_ratio_filter", false], [9, "module-data_juicer.ops.filter.image_face_count_filter", false], [9, "module-data_juicer.ops.filter.image_face_ratio_filter", false], [9, "module-data_juicer.ops.filter.image_nsfw_filter", false], [9, "module-data_juicer.ops.filter.image_pair_similarity_filter", false], [9, "module-data_juicer.ops.filter.image_shape_filter", false], [9, "module-data_juicer.ops.filter.image_size_filter", false], [9, "module-data_juicer.ops.filter.image_text_matching_filter", false], [9, "module-data_juicer.ops.filter.image_text_similarity_filter", false], [9, "module-data_juicer.ops.filter.image_watermark_filter", false], [9, "module-data_juicer.ops.filter.language_id_score_filter", false], [9, "module-data_juicer.ops.filter.maximum_line_length_filter", false], [9, "module-data_juicer.ops.filter.perplexity_filter", false], [9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter", false], [9, "module-data_juicer.ops.filter.special_characters_filter", false], [9, "module-data_juicer.ops.filter.specified_field_filter", false], [9, "module-data_juicer.ops.filter.specified_numeric_field_filter", false], [9, "module-data_juicer.ops.filter.stopwords_filter", false], [9, "module-data_juicer.ops.filter.suffix_filter", false], [9, "module-data_juicer.ops.filter.text_action_filter", false], [9, "module-data_juicer.ops.filter.text_entity_dependency_filter", false], [9, "module-data_juicer.ops.filter.text_length_filter", false], [9, "module-data_juicer.ops.filter.token_num_filter", false], [9, "module-data_juicer.ops.filter.video_aesthetics_filter", false], [9, "module-data_juicer.ops.filter.video_aspect_ratio_filter", false], [9, "module-data_juicer.ops.filter.video_duration_filter", false], [9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter", false], [9, "module-data_juicer.ops.filter.video_motion_score_filter", false], [9, "module-data_juicer.ops.filter.video_motion_score_raft_filter", false], [9, "module-data_juicer.ops.filter.video_nsfw_filter", false], [9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter", false], [9, "module-data_juicer.ops.filter.video_resolution_filter", false], [9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter", false], [9, "module-data_juicer.ops.filter.video_watermark_filter", false], [9, "module-data_juicer.ops.filter.word_repetition_filter", false], [9, "module-data_juicer.ops.filter.words_num_filter", false], [10, "module-data_juicer.ops.grouper", false], [10, "module-data_juicer.ops.grouper.key_value_grouper", false], [10, "module-data_juicer.ops.grouper.naive_grouper", false], [10, "module-data_juicer.ops.grouper.naive_reverse_grouper", false], [11, "module-data_juicer.ops.mapper", false], [11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_qa_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_query_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_response_mapper", false], [11, "module-data_juicer.ops.mapper.chinese_convert_mapper", false], [11, "module-data_juicer.ops.mapper.clean_copyright_mapper", false], [11, "module-data_juicer.ops.mapper.clean_email_mapper", false], [11, "module-data_juicer.ops.mapper.clean_html_mapper", false], [11, "module-data_juicer.ops.mapper.clean_ip_mapper", false], [11, "module-data_juicer.ops.mapper.clean_links_mapper", false], [11, "module-data_juicer.ops.mapper.dialog_intent_detection_mapper", false], [11, "module-data_juicer.ops.mapper.dialog_sentiment_detection_mapper", false], [11, "module-data_juicer.ops.mapper.dialog_sentiment_intensity_mapper", false], [11, "module-data_juicer.ops.mapper.dialog_topic_detection_mapper", false], [11, "module-data_juicer.ops.mapper.expand_macro_mapper", false], [11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper", false], [11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper", false], [11, "module-data_juicer.ops.mapper.extract_event_mapper", false], [11, "module-data_juicer.ops.mapper.extract_keyword_mapper", false], [11, "module-data_juicer.ops.mapper.extract_nickname_mapper", false], [11, "module-data_juicer.ops.mapper.extract_support_text_mapper", false], [11, "module-data_juicer.ops.mapper.fix_unicode_mapper", false], [11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper", false], [11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper", false], [11, "module-data_juicer.ops.mapper.image_blur_mapper", false], [11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper", false], [11, "module-data_juicer.ops.mapper.image_captioning_mapper", false], [11, "module-data_juicer.ops.mapper.image_diffusion_mapper", false], [11, "module-data_juicer.ops.mapper.image_face_blur_mapper", false], [11, "module-data_juicer.ops.mapper.image_tagging_mapper", false], [11, "module-data_juicer.ops.mapper.nlpaug_en_mapper", false], [11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_qa_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_query_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_response_mapper", false], [11, "module-data_juicer.ops.mapper.pair_preference_mapper", false], [11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper", false], [11, "module-data_juicer.ops.mapper.python_file_mapper", false], [11, "module-data_juicer.ops.mapper.python_lambda_mapper", false], [11, "module-data_juicer.ops.mapper.query_intent_detection_mapper", false], [11, "module-data_juicer.ops.mapper.query_sentiment_detection_mapper", false], [11, "module-data_juicer.ops.mapper.query_topic_detection_mapper", false], [11, "module-data_juicer.ops.mapper.relation_identity_mapper", false], [11, "module-data_juicer.ops.mapper.remove_bibliography_mapper", false], [11, "module-data_juicer.ops.mapper.remove_comments_mapper", false], [11, "module-data_juicer.ops.mapper.remove_header_mapper", false], [11, "module-data_juicer.ops.mapper.remove_long_words_mapper", false], [11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper", false], [11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper", false], [11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper", false], [11, "module-data_juicer.ops.mapper.remove_table_text_mapper", false], [11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper", false], [11, "module-data_juicer.ops.mapper.replace_content_mapper", false], [11, "module-data_juicer.ops.mapper.sentence_split_mapper", false], [11, "module-data_juicer.ops.mapper.text_chunk_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper", false], [11, "module-data_juicer.ops.mapper.video_extract_frames_mapper", false], [11, "module-data_juicer.ops.mapper.video_face_blur_mapper", false], [11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper", false], [11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper", false], [11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper", false], [11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper", false], [11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper", false], [11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper", false], [11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper", false], [12, "module-data_juicer.ops.selector", false], [12, "module-data_juicer.ops.selector.frequency_specified_field_selector", false], [12, "module-data_juicer.ops.selector.random_selector", false], [12, "module-data_juicer.ops.selector.range_specified_field_selector", false], [12, "module-data_juicer.ops.selector.tags_specified_field_selector", false], [12, "module-data_juicer.ops.selector.topk_specified_field_selector", false], [13, "module-data_juicer.tools", false], [14, "module-data_juicer.utils", false], [14, "module-data_juicer.utils.asset_utils", false], [14, "module-data_juicer.utils.auto_install_mapping", false], [14, "module-data_juicer.utils.auto_install_utils", false], [14, "module-data_juicer.utils.availability_utils", false], [14, "module-data_juicer.utils.cache_utils", false], [14, "module-data_juicer.utils.ckpt_utils", false], [14, "module-data_juicer.utils.common_utils", false], [14, "module-data_juicer.utils.compress", false], [14, "module-data_juicer.utils.constant", false], [14, "module-data_juicer.utils.file_utils", false], [14, "module-data_juicer.utils.fingerprint_utils", false], [14, "module-data_juicer.utils.lazy_loader", false], [14, "module-data_juicer.utils.logger_utils", false], [14, "module-data_juicer.utils.mm_utils", false], [14, "module-data_juicer.utils.model_utils", false], [14, "module-data_juicer.utils.process_utils", false], [14, "module-data_juicer.utils.registry", false], [14, "module-data_juicer.utils.resource_utils", false], [14, "module-data_juicer.utils.unittest_utils", false]], "modules (data_juicer.utils.registry.registry property)": [[14, "data_juicer.utils.registry.Registry.modules", false]], "monitor (class in data_juicer.core.monitor)": [[3, "data_juicer.core.monitor.Monitor", false]], "monitor_all_resources() (data_juicer.core.monitor.monitor method)": [[3, "data_juicer.core.monitor.Monitor.monitor_all_resources", false]], "monitor_current_resources() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.monitor_current_resources", false]], "monitor_func() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.monitor_func", false]], "most_relavant_entities (data_juicer.utils.constant.batchmetakeys attribute)": [[14, "data_juicer.utils.constant.BatchMetaKeys.most_relavant_entities", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator.most_relavant_entities_aggregator)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator", false]], "multimodal_data_output_dir (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.multimodal_data_output_dir", false]], "naivegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.NaiveGrouper", false]], "naivegrouper (class in data_juicer.ops.grouper.naive_grouper)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper", false]], "naivereversegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.NaiveReverseGrouper", false]], "naivereversegrouper (class in data_juicer.ops.grouper.naive_reverse_grouper)": [[10, "data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper", false]], "name (data_juicer.analysis.measure.crossentropymeasure attribute)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure.name", false]], "name (data_juicer.analysis.measure.entropymeasure attribute)": [[1, "data_juicer.analysis.measure.EntropyMeasure.name", false]], "name (data_juicer.analysis.measure.jsdivmeasure attribute)": [[1, "data_juicer.analysis.measure.JSDivMeasure.name", false]], "name (data_juicer.analysis.measure.kldivmeasure attribute)": [[1, "data_juicer.analysis.measure.KLDivMeasure.name", false]], "name (data_juicer.analysis.measure.measure attribute)": [[1, "data_juicer.analysis.measure.Measure.name", false]], "name (data_juicer.analysis.measure.relatedttestmeasure attribute)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.name", false]], "name (data_juicer.utils.registry.registry property)": [[14, "data_juicer.utils.registry.Registry.name", false]], "namespace_to_arg_list() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.namespace_to_arg_list", false]], "nested_access() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.nested_access", false]], "nestedaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.NestedAggregator", false]], "nestedaggregator (class in data_juicer.ops.aggregator.nested_aggregator)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator", false]], "nickname (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.nickname", false]], "nlpaugenmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper", false]], "nlpaugenmapper (class in data_juicer.ops.mapper.nlpaug_en_mapper)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper", false]], "nlpcdazhmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper", false]], "nlpcdazhmapper (class in data_juicer.ops.mapper.nlpcda_zh_mapper)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper", false]], "null_value (data_juicer.format.empty_formatter.emptyformatter property)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.empty_formatter.rayemptyformatter property)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.null_value", false]], "null_value (data_juicer.format.emptyformatter property)": [[4, "data_juicer.format.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.rayemptyformatter property)": [[4, "data_juicer.format.RayEmptyFormatter.null_value", false]], "num_action (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_action", false]], "num_dependency_edges (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges", false]], "num_token (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_token", false]], "num_words (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_words", false]], "op (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.OP", false]], "optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param", false]], "optimizeqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper", false]], "optimizeqamapper (class in data_juicer.ops.mapper.optimize_qa_mapper)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper", false]], "optimizequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper", false]], "optimizequerymapper (class in data_juicer.ops.mapper.optimize_query_mapper)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper", false]], "optimizeresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper", false]], "optimizeresponsemapper (class in data_juicer.ops.mapper.optimize_response_mapper)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper", false]], "overallanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.OverallAnalysis", false]], "overallanalysis (class in data_juicer.analysis.overall_analysis)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis", false]], "pairpreferencemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper", false]], "pairpreferencemapper (class in data_juicer.ops.mapper.pair_preference_mapper)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper", false]], "parquetformatter (class in data_juicer.format)": [[4, "data_juicer.format.ParquetFormatter", false]], "parquetformatter (class in data_juicer.format.parquet_formatter)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter", false]], "parse_output() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_query_mapper.calibratequerymapper method)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_response_mapper.calibrateresponsemapper method)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibratequerymapper method)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateresponsemapper method)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_query_mapper.optimizequerymapper method)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_response_mapper.optimizeresponsemapper method)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizequerymapper method)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeresponsemapper method)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.parse_output", false]], "parse_string_to_roi() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.parse_string_to_roi", false]], "perplexity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.perplexity", false]], "perplexityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PerplexityFilter", false]], "perplexityfilter (class in data_juicer.ops.filter.perplexity_filter)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter", false]], "phrase_grounding_recall (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall", false]], "phrasegroundingrecallfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter", false]], "phrasegroundingrecallfilter (class in data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter", false]], "pil_to_opencv() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.pil_to_opencv", false]], "prepare_api_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_api_model", false]], "prepare_converter() (in module data_juicer.ops.mapper.chinese_convert_mapper)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter", false]], "prepare_diffusion_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_diffusion_model", false]], "prepare_fasttext_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_fasttext_model", false]], "prepare_huggingface_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_huggingface_model", false]], "prepare_kenlm_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_kenlm_model", false]], "prepare_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_model", false]], "prepare_nltk_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_nltk_model", false]], "prepare_opencv_classifier() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_opencv_classifier", false]], "prepare_recognizeanything_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_recognizeAnything_model", false]], "prepare_sentencepiece_for_lang() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_sentencepiece_for_lang", false]], "prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_sentencepiece_model", false]], "prepare_side_configs() (in module data_juicer.config)": [[2, "data_juicer.config.prepare_side_configs", false]], "prepare_side_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.prepare_side_configs", false]], "prepare_simple_aesthetics_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_simple_aesthetics_model", false]], "prepare_spacy_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_spacy_model", false]], "prepare_video_blip_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_video_blip_model", false]], "prepare_vllm_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_vllm_model", false]], "process() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.process", false]], "process() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.process", false]], "process() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.process", false]], "process() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.process", false]], "process() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.process", false]], "process() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.process", false]], "process() (data_juicer.ops.grouper.key_value_grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process", false]], "process() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.process", false]], "process() (data_juicer.ops.grouper.naive_grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process", false]], "process() (data_juicer.ops.grouper.naive_reverse_grouper.naivereversegrouper method)": [[10, "data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper.process", false]], "process() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.process", false]], "process() (data_juicer.ops.grouper.naivereversegrouper method)": [[10, "data_juicer.ops.grouper.NaiveReverseGrouper.process", false]], "process() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.process", false]], "process() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.random_selector.randomselector method)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector.process", false]], "process() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.process", false]], "process() (data_juicer.ops.selector.range_specified_field_selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.tags_specified_field_selector.tagsspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.tagsspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TagsSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.process", false]], "process_batched() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process_batched", false]], "process_batched() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process_batched", false]], "process_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_batched", false]], "process_batched() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.process_batched", false]], "process_batched() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.chinese_convert_mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_captioning_mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_diffusion_mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.query_intent_detection_mapper.queryintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.query_sentiment_detection_mapper.querysentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.query_topic_detection_mapper.querytopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.queryintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.QueryIntentDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.querysentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.QuerySentimentDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.querytopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.QueryTopicDetectionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_non_chinese_character_mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_repeat_sentences_mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.replace_content_mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_audio_mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_frames_mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_video_mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.process_batched", false]], "process_each_frame() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.process_each_frame", false]], "process_single() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.meta_tags_aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.metatagsaggregator method)": [[6, "data_juicer.ops.aggregator.MetaTagsAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.process_single", false]], "process_single() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.process_single", false]], "process_single() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process_single", false]], "process_single() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process_single", false]], "process_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single", false]], "process_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single", false]], "process_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single", false]], "process_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single", false]], "process_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.process_single", false]], "process_single() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.process_single", false]], "process_single() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single", false]], "process_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_single", false]], "process_single() (data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialog_intent_detection_mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialog_sentiment_detection_mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialog_topic_detection_mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialogintentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogIntentDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialogsentimentdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialogsentimentintensitymapper method)": [[11, "data_juicer.ops.mapper.DialogSentimentIntensityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.dialogtopicdetectionmapper method)": [[11, "data_juicer.ops.mapper.DialogTopicDetectionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_blur_mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_face_blur_mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_tagging_mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_extract_frames_mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_face_blur_mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_remove_watermark_mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_resize_resolution_mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_tagging_from_audio_mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_tagging_from_frames_mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single", false]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper", false]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper", false]], "pythonfilemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonFileMapper", false]], "pythonfilemapper (class in data_juicer.ops.mapper.python_file_mapper)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper", false]], "pythonlambdamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper", false]], "pythonlambdamapper (class in data_juicer.ops.mapper.python_lambda_mapper)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper", false]], "query_cuda_info() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.query_cuda_info", false]], "query_intent_label (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_intent_label", false]], "query_intent_score (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_intent_score", false]], "query_mem_info() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.query_mem_info", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "query_sentiment_label (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_sentiment_label", false]], "query_sentiment_score (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_sentiment_score", false]], "query_topic_label (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_topic_label", false]], "query_topic_score (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.query_topic_score", false]], "queryintentdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.QueryIntentDetectionMapper", false]], "queryintentdetectionmapper (class in data_juicer.ops.mapper.query_intent_detection_mapper)": [[11, "data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper", false]], "querysentimentdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.QuerySentimentDetectionMapper", false]], "querysentimentdetectionmapper (class in data_juicer.ops.mapper.query_sentiment_detection_mapper)": [[11, "data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper", false]], "querytopicdetectionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.QueryTopicDetectionMapper", false]], "querytopicdetectionmapper (class in data_juicer.ops.mapper.query_topic_detection_mapper)": [[11, "data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper", false]], "random_sample() (data_juicer.format.mixture_formatter.mixtureformatter class method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.random_sample", false]], "random_sample() (data_juicer.format.mixtureformatter class method)": [[4, "data_juicer.format.MixtureFormatter.random_sample", false]], "randomselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RandomSelector", false]], "randomselector (class in data_juicer.ops.selector.random_selector)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector", false]], "rangespecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector", false]], "rangespecifiedfieldselector (class in data_juicer.ops.selector.range_specified_field_selector)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector", false]], "raybasicdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator", false]], "raybasicdeduplicator (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator", false]], "raybtsminhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator", false]], "raybtsminhashdeduplicator (class in data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator", false]], "raydocumentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator", false]], "raydocumentdeduplicator (class in data_juicer.ops.deduplicator.ray_document_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator", false]], "rayemptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.RayEmptyFormatter", false]], "rayemptyformatter (class in data_juicer.format.empty_formatter)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter", false]], "rayimagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator", false]], "rayimagededuplicator (class in data_juicer.ops.deduplicator.ray_image_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator", false]], "rayvideodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator", false]], "rayvideodeduplicator (class in data_juicer.ops.deduplicator.ray_video_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator", false]], "record() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.record", false]], "recursive_summary() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary", false]], "recursive_summary() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.recursive_summary", false]], "recursively_chunk() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk", false]], "recursively_chunk() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.recursively_chunk", false]], "redirect_sys_output() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.redirect_sys_output", false]], "redisbackend (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend", false]], "refine_single_column() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column", false]], "refine_single_column() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.refine_single_column", false]], "refined_words (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.refined_words", false]], "register_module() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.register_module", false]], "registry (class in data_juicer.utils.registry)": [[14, "data_juicer.utils.registry.Registry", false]], "relatedttestmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure", false]], "relation (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.relation", false]], "relation_description (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.relation_description", false]], "relation_keywords (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.relation_keywords", false]], "relation_strength (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.relation_strength", false]], "relationidentitymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper", false]], "relationidentitymapper (class in data_juicer.ops.mapper.relation_identity_mapper)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper", false]], "relevant_characters (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.relevant_characters", false]], "remoteformatter (class in data_juicer.format)": [[4, "data_juicer.format.RemoteFormatter", false]], "remoteformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.RemoteFormatter", false]], "remove_extra_parameters() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.remove_extra_parameters", false]], "remove_non_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.remove_non_special_tokens", false]], "remove_punctuation() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation", false]], "remove_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.remove_special_tokens", false]], "removebibliographymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper", false]], "removebibliographymapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper", false]], "removecommentsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper", false]], "removecommentsmapper (class in data_juicer.ops.mapper.remove_comments_mapper)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper", false]], "removeheadermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper", false]], "removeheadermapper (class in data_juicer.ops.mapper.remove_header_mapper)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper", false]], "removelongwordsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper", false]], "removelongwordsmapper (class in data_juicer.ops.mapper.remove_long_words_mapper)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper", false]], "removenonchinesecharacterlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper", false]], "removenonchinesecharacterlmapper (class in data_juicer.ops.mapper.remove_non_chinese_character_mapper)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper", false]], "removerepeatsentencesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper", false]], "removerepeatsentencesmapper (class in data_juicer.ops.mapper.remove_repeat_sentences_mapper)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper", false]], "removespecificcharsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper", false]], "removespecificcharsmapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper", false]], "removetabletextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper", false]], "removetabletextmapper (class in data_juicer.ops.mapper.remove_table_text_mapper)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper", false]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper", false]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper", false]], "replace_func() (in module data_juicer.ops.mapper.video_split_by_scene_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func", false]], "replacecontentmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper", false]], "replacecontentmapper (class in data_juicer.ops.mapper.replace_content_mapper)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper", false]], "rescale() (in module data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale", false]], "resource_monitor() (in module data_juicer.core.monitor)": [[3, "data_juicer.core.monitor.resource_monitor", false]], "role_relation (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.role_relation", false]], "run() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.run", false]], "run() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.run", false]], "run() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.run", false]], "run() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.run", false]], "run() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.run", false]], "run() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.run", false]], "run() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.run", false]], "run() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.run", false]], "run() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.run", false]], "run() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator.run", false]], "run() (data_juicer.ops.deduplicator.raybtsminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator.run", false]], "run() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.run", false]], "run() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.run", false]], "run() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.run", false]], "run() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.run", false]], "run_ner() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner", false]], "run_single_op() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op", false]], "runtime_np() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.runtime_np", false]], "sampled_frames (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.sampled_frames", false]], "save_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt", false]], "selector (class in data_juicer.ops)": [[5, "data_juicer.ops.Selector", false]], "selector (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Selector", false]], "sentencesplitmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper", false]], "sentencesplitmapper (class in data_juicer.ops.mapper.sentence_split_mapper)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper", false]], "separate_signal_noise() (in module data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise", false]], "set_clear_model_flag() (in module data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.set_clear_model_flag", false]], "setup_logger() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.setup_logger", false]], "setup_model() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model", false]], "setup_mp() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.setup_mp", false]], "setupclass() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass", false]], "sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32", false]], "should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word", false]], "should_keep_long_word() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word", false]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings", false]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings", false]], "simhash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.simhash", false]], "size_to_bytes() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.size_to_bytes", false]], "sort_op_by_types_and_names() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.sort_op_by_types_and_names", false]], "source_entity (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.source_entity", false]], "source_file (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.source_file", false]], "special_char_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.special_char_ratio", false]], "specialcharactersfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter", false]], "specialcharactersfilter (class in data_juicer.ops.filter.special_characters_filter)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter", false]], "specialtokens (class in data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.SpecialTokens", false]], "specifiedfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter", false]], "specifiedfieldfilter (class in data_juicer.ops.filter.specified_field_filter)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter", false]], "specifiednumericfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter", false]], "specifiednumericfieldfilter (class in data_juicer.ops.filter.specified_numeric_field_filter)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_newline_tab_whitespace", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_on_whitespace", false]], "split_sentence() (in module data_juicer.ops.mapper.remove_repeat_sentences_mapper)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence", false]], "split_text_by_punctuation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_text_by_punctuation", false]], "split_text_by_punctuation() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_text_by_punctuation", false]], "split_videos_by_duration() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration", false]], "split_videos_by_duration() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration", false]], "stats (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.stats", false]], "stats_to_hist() (data_juicer.analysis.measure.relatedttestmeasure static method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist", false]], "stats_to_number() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.stats_to_number", false]], "statskeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeys", false]], "statskeysconstant (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeysConstant", false]], "statskeysmeta (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeysMeta", false]], "stopwords_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio", false]], "stopwordsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.StopWordsFilter", false]], "stopwordsfilter (class in data_juicer.ops.filter.stopwords_filter)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter", false]], "strategy (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper attribute)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY", false]], "strategy (data_juicer.ops.mapper.videoresizeaspectratiomapper attribute)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY", false]], "streamtologuru (class in data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru", false]], "strip() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.strip", false]], "strip() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.strip", false]], "suffix (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.suffix", false]], "suffixes (data_juicer.format.csv_formatter.csvformatter attribute)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.csvformatter attribute)": [[4, "data_juicer.format.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.empty_formatter.emptyformatter attribute)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.empty_formatter.rayemptyformatter attribute)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.emptyformatter attribute)": [[4, "data_juicer.format.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.json_formatter.jsonformatter attribute)": [[4, "data_juicer.format.json_formatter.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.jsonformatter attribute)": [[4, "data_juicer.format.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquet_formatter.parquetformatter attribute)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquetformatter attribute)": [[4, "data_juicer.format.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.rayemptyformatter attribute)": [[4, "data_juicer.format.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.text_formatter.textformatter attribute)": [[4, "data_juicer.format.text_formatter.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.textformatter attribute)": [[4, "data_juicer.format.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsv_formatter.tsvformatter attribute)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsvformatter attribute)": [[4, "data_juicer.format.TsvFormatter.SUFFIXES", false]], "suffixfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SuffixFilter", false]], "suffixfilter (class in data_juicer.ops.filter.suffix_filter)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter", false]], "support_text (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.support_text", false]], "tagsspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.TagsSpecifiedFieldSelector", false]], "tagsspecifiedfieldselector (class in data_juicer.ops.selector.tags_specified_field_selector)": [[12, "data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector", false]], "target_entity (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.target_entity", false]], "teardown() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown", false]], "teardownclass() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass", false]], "test_tag() (in module data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.TEST_TAG", false]], "text_len (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.text_len", false]], "textactionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextActionFilter", false]], "textactionfilter (class in data_juicer.ops.filter.text_action_filter)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter", false]], "textchunkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.TextChunkMapper", false]], "textchunkmapper (class in data_juicer.ops.mapper.text_chunk_mapper)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper", false]], "textentitydependencyfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter", false]], "textentitydependencyfilter (class in data_juicer.ops.filter.text_entity_dependency_filter)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter", false]], "textformatter (class in data_juicer.format)": [[4, "data_juicer.format.TextFormatter", false]], "textformatter (class in data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.TextFormatter", false]], "textlengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextLengthFilter", false]], "textlengthfilter (class in data_juicer.ops.filter.text_length_filter)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter", false]], "texttokendistcollector (class in data_juicer.analysis.collector)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector", false]], "timecode_string_to_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.timecode_string_to_seconds", false]], "tokennumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TokenNumFilter", false]], "tokennumfilter (class in data_juicer.ops.filter.token_num_filter)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter", false]], "topkspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector", false]], "topkspecifiedfieldselector (class in data_juicer.ops.selector.topk_specified_field_selector)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector", false]], "transfer_filename() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.transfer_filename", false]], "triangle_area() (in module data_juicer.ops.filter.video_ocr_area_ratio_filter)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area", false]], "tsvformatter (class in data_juicer.format)": [[4, "data_juicer.format.TsvFormatter", false]], "tsvformatter (class in data_juicer.format.tsv_formatter)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter", false]], "uid (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.uid", false]], "unify_format() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.unify_format", false]], "union() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.union", false]], "unionfind (class in data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.UnionFind", false]], "update() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.update", false]], "update_ds_cache_dir_and_related_vars() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_ds_cache_dir_and_related_vars", false]], "update_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.update_fingerprint", false]], "update_op_attr() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_op_attr", false]], "update_op_process() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_op_process", false]], "use_cuda() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.use_cuda", false]], "video (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.video", false]], "video_aesthetic_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score", false]], "video_aspect_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios", false]], "video_audio_tags (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.video_audio_tags", false]], "video_duration (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_duration", false]], "video_frame_tags (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.video_frame_tags", false]], "video_frames (data_juicer.utils.constant.metakeys attribute)": [[14, "data_juicer.utils.constant.MetaKeys.video_frames", false]], "video_frames_aesthetics_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score", false]], "video_frames_text_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity", false]], "video_height (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_height", false]], "video_motion_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_motion_score", false]], "video_nsfw_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score", false]], "video_ocr_area_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio", false]], "video_watermark_prob (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob", false]], "video_width (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_width", false]], "videoaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter", false]], "videoaestheticsfilter (class in data_juicer.ops.filter.video_aesthetics_filter)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter", false]], "videoaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter", false]], "videoaspectratiofilter (class in data_juicer.ops.filter.video_aspect_ratio_filter)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter", false]], "videocaptioningfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper", false]], "videocaptioningfromaudiomapper (class in data_juicer.ops.mapper.video_captioning_from_audio_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper", false]], "videocaptioningfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper", false]], "videocaptioningfromframesmapper (class in data_juicer.ops.mapper.video_captioning_from_frames_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper", false]], "videocaptioningfromsummarizermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper", false]], "videocaptioningfromsummarizermapper (class in data_juicer.ops.mapper.video_captioning_from_summarizer_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper", false]], "videocaptioningfromvideomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper", false]], "videocaptioningfromvideomapper (class in data_juicer.ops.mapper.video_captioning_from_video_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper", false]], "videocapture() (in module data_juicer.ops.filter.video_motion_score_filter)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoCapture", false]], "videodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator", false]], "videodeduplicator (class in data_juicer.ops.deduplicator.video_deduplicator)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator", false]], "videodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoDurationFilter", false]], "videodurationfilter (class in data_juicer.ops.filter.video_duration_filter)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter", false]], "videoextractframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper", false]], "videoextractframesmapper (class in data_juicer.ops.mapper.video_extract_frames_mapper)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper", false]], "videofaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper", false]], "videofaceblurmapper (class in data_juicer.ops.mapper.video_face_blur_mapper)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper", false]], "videoffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper", false]], "videoffmpegwrappedmapper (class in data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper", false]], "videoframestextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter", false]], "videoframestextsimilarityfilter (class in data_juicer.ops.filter.video_frames_text_similarity_filter)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter", false]], "videohash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.videohash", false]], "videomotionscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter", false]], "videomotionscorefilter (class in data_juicer.ops.filter.video_motion_score_filter)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter", false]], "videomotionscoreraftfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter", false]], "videomotionscoreraftfilter (class in data_juicer.ops.filter.video_motion_score_raft_filter)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter", false]], "videonsfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoNSFWFilter", false]], "videonsfwfilter (class in data_juicer.ops.filter.video_nsfw_filter)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter", false]], "videoocrarearatiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter", false]], "videoocrarearatiofilter (class in data_juicer.ops.filter.video_ocr_area_ratio_filter)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter", false]], "videoremovewatermarkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper", false]], "videoremovewatermarkmapper (class in data_juicer.ops.mapper.video_remove_watermark_mapper)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper", false]], "videoresizeaspectratiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper", false]], "videoresizeaspectratiomapper (class in data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper", false]], "videoresizeresolutionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper", false]], "videoresizeresolutionmapper (class in data_juicer.ops.mapper.video_resize_resolution_mapper)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper", false]], "videoresolutionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoResolutionFilter", false]], "videoresolutionfilter (class in data_juicer.ops.filter.video_resolution_filter)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter", false]], "videosplitbydurationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper", false]], "videosplitbydurationmapper (class in data_juicer.ops.mapper.video_split_by_duration_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper", false]], "videosplitbykeyframemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper", false]], "videosplitbykeyframemapper (class in data_juicer.ops.mapper.video_split_by_key_frame_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper", false]], "videosplitbyscenemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper", false]], "videosplitbyscenemapper (class in data_juicer.ops.mapper.video_split_by_scene_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper", false]], "videotaggingfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper", false]], "videotaggingfromaudiomapper (class in data_juicer.ops.mapper.video_tagging_from_audio_mapper)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper", false]], "videotaggingfromframesfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter", false]], "videotaggingfromframesfilter (class in data_juicer.ops.filter.video_tagging_from_frames_filter)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter", false]], "videotaggingfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper", false]], "videotaggingfromframesmapper (class in data_juicer.ops.mapper.video_tagging_from_frames_mapper)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper", false]], "videowatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter", false]], "videowatermarkfilter (class in data_juicer.ops.filter.video_watermark_filter)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter", false]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper", false]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper", false]], "word_rep_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio", false]], "wordrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordRepetitionFilter", false]], "wordrepetitionfilter (class in data_juicer.ops.filter.word_repetition_filter)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter", false]], "words (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.words", false]], "words_augmentation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_augmentation", false]], "words_augmentation() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.words_augmentation", false]], "words_refinement() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_refinement", false]], "words_refinement() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.words_refinement", false]], "wordsnumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordsNumFilter", false]], "wordsnumfilter (class in data_juicer.ops.filter.words_num_filter)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter", false]], "write() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.write", false]], "zstdcompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.ZstdCompressor", false]]}, "objects": {"": [[0, 0, 0, "-", "data_juicer"]], "data_juicer": [[1, 0, 0, "-", "analysis"], [2, 0, 0, "-", "config"], [0, 3, 1, "", "cuda_device_count"], [4, 0, 0, "-", "format"], [0, 3, 1, "", "is_cuda_available"], [5, 0, 0, "-", "ops"], [13, 0, 0, "-", "tools"], [14, 0, 0, "-", "utils"]], "data_juicer.analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 1, 1, "", "DiversityAnalysis"], [1, 1, 1, "", "OverallAnalysis"], [1, 0, 0, "-", "collector"], [1, 0, 0, "-", "column_wise_analysis"], [1, 0, 0, "-", "diversity_analysis"], [1, 0, 0, "-", "draw"], [1, 0, 0, "-", "measure"], [1, 0, 0, "-", "overall_analysis"]], "data_juicer.analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.analysis.collector": [[1, 1, 1, "", "TextTokenDistCollector"]], "data_juicer.analysis.collector.TextTokenDistCollector": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "collect"]], "data_juicer.analysis.column_wise_analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 3, 1, "", "get_row_col"]], "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.diversity_analysis": [[1, 1, 1, "", "DiversityAnalysis"], [1, 3, 1, "", "find_root_verb_and_its_dobj"], [1, 3, 1, "", "find_root_verb_and_its_dobj_in_string"], [1, 3, 1, "", "get_diversity"]], "data_juicer.analysis.diversity_analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.draw": [[1, 3, 1, "", "draw_heatmap"]], "data_juicer.analysis.measure": [[1, 1, 1, "", "CrossEntropyMeasure"], [1, 1, 1, "", "EntropyMeasure"], [1, 1, 1, "", "JSDivMeasure"], [1, 1, 1, "", "KLDivMeasure"], [1, 1, 1, "", "Measure"], [1, 1, 1, "", "RelatedTTestMeasure"]], "data_juicer.analysis.measure.CrossEntropyMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.EntropyMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.JSDivMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.KLDivMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.Measure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.RelatedTTestMeasure": [[1, 2, 1, "", "category_to_hist"], [1, 2, 1, "", "measure"], [1, 4, 1, "", "name"], [1, 2, 1, "", "stats_to_hist"]], "data_juicer.analysis.overall_analysis": [[1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.overall_analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.config": [[2, 0, 0, "-", "config"], [2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "prepare_side_configs"]], "data_juicer.config.config": [[2, 3, 1, "", "config_backup"], [2, 3, 1, "", "display_config"], [2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "init_setup_from_cfg"], [2, 3, 1, "", "load_ops_with_stats_meta"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "namespace_to_arg_list"], [2, 3, 1, "", "prepare_side_configs"], [2, 3, 1, "", "sort_op_by_types_and_names"], [2, 3, 1, "", "update_ds_cache_dir_and_related_vars"], [2, 3, 1, "", "update_op_attr"], [2, 3, 1, "", "update_op_process"]], "data_juicer.core": [[3, 0, 0, "-", "monitor"]], "data_juicer.core.monitor": [[3, 1, 1, "", "Monitor"], [3, 3, 1, "", "resource_monitor"]], "data_juicer.core.monitor.Monitor": [[3, 4, 1, "", "DYNAMIC_FIELDS"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "analyze_resource_util_list"], [3, 2, 1, "", "analyze_single_resource_util"], [3, 2, 1, "", "draw_resource_util_graph"], [3, 2, 1, "", "monitor_all_resources"], [3, 2, 1, "", "monitor_current_resources"], [3, 2, 1, "", "monitor_func"]], "data_juicer.format": [[4, 1, 1, "", "CsvFormatter"], [4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "JsonFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "MixtureFormatter"], [4, 1, 1, "", "ParquetFormatter"], [4, 1, 1, "", "RayEmptyFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 1, 1, "", "TextFormatter"], [4, 1, 1, "", "TsvFormatter"], [4, 0, 0, "-", "csv_formatter"], [4, 0, 0, "-", "empty_formatter"], [4, 0, 0, "-", "formatter"], [4, 0, 0, "-", "json_formatter"], [4, 0, 0, "-", "load"], [4, 3, 1, "", "load_formatter"], [4, 0, 0, "-", "mixture_formatter"], [4, 0, 0, "-", "parquet_formatter"], [4, 0, 0, "-", "text_formatter"], [4, 0, 0, "-", "tsv_formatter"]], "data_juicer.format.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.csv_formatter": [[4, 1, 1, "", "CsvFormatter"]], "data_juicer.format.csv_formatter.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.empty_formatter": [[4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "RayEmptyFormatter"]], "data_juicer.format.empty_formatter.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.empty_formatter.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.formatter": [[4, 1, 1, "", "BaseFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 3, 1, "", "add_suffixes"], [4, 3, 1, "", "load_formatter"], [4, 3, 1, "", "unify_format"]], "data_juicer.format.formatter.BaseFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.json_formatter": [[4, 1, 1, "", "JsonFormatter"]], "data_juicer.format.json_formatter.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.load": [[4, 3, 1, "", "load_formatter"]], "data_juicer.format.mixture_formatter": [[4, 1, 1, "", "MixtureFormatter"]], "data_juicer.format.mixture_formatter.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.parquet_formatter": [[4, 1, 1, "", "ParquetFormatter"]], "data_juicer.format.parquet_formatter.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.text_formatter": [[4, 1, 1, "", "TextFormatter"], [4, 3, 1, "", "extract_txt_from_docx"], [4, 3, 1, "", "extract_txt_from_pdf"]], "data_juicer.format.text_formatter.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.tsv_formatter": [[4, 1, 1, "", "TsvFormatter"]], "data_juicer.format.tsv_formatter.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.ops": [[5, 1, 1, "", "Aggregator"], [5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Grouper"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"], [6, 0, 0, "-", "aggregator"], [5, 0, 0, "-", "base_op"], [7, 0, 0, "-", "common"], [8, 0, 0, "-", "deduplicator"], [9, 0, 0, "-", "filter"], [10, 0, 0, "-", "grouper"], [5, 0, 0, "-", "load"], [5, 3, 1, "", "load_ops"], [11, 0, 0, "-", "mapper"], [5, 0, 0, "-", "op_fusion"], [12, 0, 0, "-", "selector"]], "data_juicer.ops.Aggregator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "compute_stats_single"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Grouper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"], [6, 1, 1, "", "MetaTagsAggregator"], [6, 1, 1, "", "MostRelavantEntitiesAggregator"], [6, 1, 1, "", "NestedAggregator"], [6, 0, 0, "-", "entity_attribute_aggregator"], [6, 0, 0, "-", "meta_tags_aggregator"], [6, 0, 0, "-", "most_relavant_entities_aggregator"], [6, 0, 0, "-", "nested_aggregator"]], "data_juicer.ops.aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MetaTagsAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 4, 1, "", "DEFAULT_TAG_TEMPLATE"], [6, 4, 1, "", "DEFAULT_TARGET_TAG_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "meta_map"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.aggregator.entity_attribute_aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"]], "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.meta_tags_aggregator": [[6, 1, 1, "", "MetaTagsAggregator"]], "data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 4, 1, "", "DEFAULT_TAG_TEMPLATE"], [6, 4, 1, "", "DEFAULT_TARGET_TAG_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "meta_map"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator": [[6, 1, 1, "", "MostRelavantEntitiesAggregator"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.nested_aggregator": [[6, 1, 1, "", "NestedAggregator"]], "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.base_op": [[5, 1, 1, "", "Aggregator"], [5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Grouper"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "OP"], [5, 1, 1, "", "Selector"], [5, 3, 1, "", "catch_map_batches_exception"], [5, 3, 1, "", "catch_map_single_exception"], [5, 3, 1, "", "convert_arrow_to_python"], [5, 3, 1, "", "convert_dict_list_to_list_dict"], [5, 3, 1, "", "convert_list_dict_to_dict_list"]], "data_juicer.ops.base_op.Aggregator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "compute_stats_single"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Grouper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.OP": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "add_parameters"], [5, 2, 1, "", "empty_history"], [5, 2, 1, "", "is_batched_op"], [5, 2, 1, "", "process"], [5, 2, 1, "", "remove_extra_parameters"], [5, 2, 1, "", "run"], [5, 2, 1, "", "runtime_np"], [5, 2, 1, "", "use_cuda"]], "data_juicer.ops.base_op.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.common": [[7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 0, 0, "-", "helper_func"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 0, 0, "-", "special_characters"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func": [[7, 1, 1, "", "UnionFind"], [7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func.UnionFind": [[7, 2, 1, "", "__init__"], [7, 2, 1, "", "find"], [7, 2, 1, "", "union"]], "data_juicer.ops.deduplicator": [[8, 1, 1, "", "DocumentDeduplicator"], [8, 1, 1, "", "DocumentMinhashDeduplicator"], [8, 1, 1, "", "DocumentSimhashDeduplicator"], [8, 1, 1, "", "ImageDeduplicator"], [8, 1, 1, "", "RayBTSMinhashDeduplicator"], [8, 1, 1, "", "RayBasicDeduplicator"], [8, 1, 1, "", "RayDocumentDeduplicator"], [8, 1, 1, "", "RayImageDeduplicator"], [8, 1, 1, "", "RayVideoDeduplicator"], [8, 1, 1, "", "VideoDeduplicator"], [8, 0, 0, "-", "document_deduplicator"], [8, 0, 0, "-", "document_minhash_deduplicator"], [8, 0, 0, "-", "document_simhash_deduplicator"], [8, 0, 0, "-", "image_deduplicator"], [8, 0, 0, "-", "ray_basic_deduplicator"], [8, 0, 0, "-", "ray_bts_minhash_deduplicator"], [8, 0, 0, "-", "ray_document_deduplicator"], [8, 0, 0, "-", "ray_image_deduplicator"], [8, 0, 0, "-", "ray_video_deduplicator"], [8, 0, 0, "-", "video_deduplicator"]], "data_juicer.ops.deduplicator.DocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.ImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calc_minhash"], [8, 2, 1, "", "filter_with_union_find"], [8, 2, 1, "", "merge"], [8, 2, 1, "", "merge_op_batch"], [8, 2, 1, "", "run"]], "data_juicer.ops.deduplicator.RayBasicDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"], [8, 2, 1, "", "compute_stats_single"], [8, 2, 1, "", "process_single"]], "data_juicer.ops.deduplicator.RayDocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayVideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.VideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_deduplicator": [[8, 1, 1, "", "DocumentDeduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[8, 1, 1, "", "DocumentMinhashDeduplicator"], [8, 3, 1, "", "optimal_param"], [8, 3, 1, "", "sha1_hash32"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[8, 1, 1, "", "DocumentSimhashDeduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.image_deduplicator": [[8, 1, 1, "", "ImageDeduplicator"], [8, 3, 1, "", "get_hash_method"]], "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator": [[8, 1, 1, "", "ActorBackend"], [8, 1, 1, "", "Backend"], [8, 1, 1, "", "RayBasicDeduplicator"], [8, 1, 1, "", "RedisBackend"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "is_unique"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "is_unique"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"], [8, 2, 1, "", "compute_stats_single"], [8, 2, 1, "", "process_single"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "is_unique"]], "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator": [[8, 1, 1, "", "RayBTSMinhashDeduplicator"]], "data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calc_minhash"], [8, 2, 1, "", "filter_with_union_find"], [8, 2, 1, "", "merge"], [8, 2, 1, "", "merge_op_batch"], [8, 2, 1, "", "run"]], "data_juicer.ops.deduplicator.ray_document_deduplicator": [[8, 1, 1, "", "RayDocumentDeduplicator"]], "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.ray_image_deduplicator": [[8, 1, 1, "", "RayImageDeduplicator"], [8, 3, 1, "", "get_hash_method"]], "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.ray_video_deduplicator": [[8, 1, 1, "", "RayVideoDeduplicator"]], "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.video_deduplicator": [[8, 1, 1, "", "VideoDeduplicator"]], "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter": [[9, 1, 1, "", "AlphanumericFilter"], [9, 1, 1, "", "AudioDurationFilter"], [9, 1, 1, "", "AudioNMFSNRFilter"], [9, 1, 1, "", "AudioSizeFilter"], [9, 1, 1, "", "AverageLineLengthFilter"], [9, 1, 1, "", "CharacterRepetitionFilter"], [9, 1, 1, "", "FlaggedWordFilter"], [9, 1, 1, "", "ImageAestheticsFilter"], [9, 1, 1, "", "ImageAspectRatioFilter"], [9, 1, 1, "", "ImageFaceCountFilter"], [9, 1, 1, "", "ImageFaceRatioFilter"], [9, 1, 1, "", "ImageNSFWFilter"], [9, 1, 1, "", "ImagePairSimilarityFilter"], [9, 1, 1, "", "ImageShapeFilter"], [9, 1, 1, "", "ImageSizeFilter"], [9, 1, 1, "", "ImageTextMatchingFilter"], [9, 1, 1, "", "ImageTextSimilarityFilter"], [9, 1, 1, "", "ImageWatermarkFilter"], [9, 1, 1, "", "LanguageIDScoreFilter"], [9, 1, 1, "", "MaximumLineLengthFilter"], [9, 1, 1, "", "PerplexityFilter"], [9, 1, 1, "", "PhraseGroundingRecallFilter"], [9, 1, 1, "", "SpecialCharactersFilter"], [9, 1, 1, "", "SpecifiedFieldFilter"], [9, 1, 1, "", "SpecifiedNumericFieldFilter"], [9, 1, 1, "", "StopWordsFilter"], [9, 1, 1, "", "SuffixFilter"], [9, 1, 1, "", "TextActionFilter"], [9, 1, 1, "", "TextEntityDependencyFilter"], [9, 1, 1, "", "TextLengthFilter"], [9, 1, 1, "", "TokenNumFilter"], [9, 1, 1, "", "VideoAestheticsFilter"], [9, 1, 1, "", "VideoAspectRatioFilter"], [9, 1, 1, "", "VideoDurationFilter"], [9, 1, 1, "", "VideoFramesTextSimilarityFilter"], [9, 1, 1, "", "VideoMotionScoreFilter"], [9, 1, 1, "", "VideoMotionScoreRaftFilter"], [9, 1, 1, "", "VideoNSFWFilter"], [9, 1, 1, "", "VideoOcrAreaRatioFilter"], [9, 1, 1, "", "VideoResolutionFilter"], [9, 1, 1, "", "VideoTaggingFromFramesFilter"], [9, 1, 1, "", "VideoWatermarkFilter"], [9, 1, 1, "", "WordRepetitionFilter"], [9, 1, 1, "", "WordsNumFilter"], [9, 0, 0, "-", "alphanumeric_filter"], [9, 0, 0, "-", "audio_duration_filter"], [9, 0, 0, "-", "audio_nmf_snr_filter"], [9, 0, 0, "-", "audio_size_filter"], [9, 0, 0, "-", "average_line_length_filter"], [9, 0, 0, "-", "character_repetition_filter"], [9, 0, 0, "-", "flagged_words_filter"], [9, 0, 0, "-", "image_aesthetics_filter"], [9, 0, 0, "-", "image_aspect_ratio_filter"], [9, 0, 0, "-", "image_face_count_filter"], [9, 0, 0, "-", "image_face_ratio_filter"], [9, 0, 0, "-", "image_nsfw_filter"], [9, 0, 0, "-", "image_pair_similarity_filter"], [9, 0, 0, "-", "image_shape_filter"], [9, 0, 0, "-", "image_size_filter"], [9, 0, 0, "-", "image_text_matching_filter"], [9, 0, 0, "-", "image_text_similarity_filter"], [9, 0, 0, "-", "image_watermark_filter"], [9, 0, 0, "-", "language_id_score_filter"], [9, 0, 0, "-", "maximum_line_length_filter"], [9, 0, 0, "-", "perplexity_filter"], [9, 0, 0, "-", "phrase_grounding_recall_filter"], [9, 0, 0, "-", "special_characters_filter"], [9, 0, 0, "-", "specified_field_filter"], [9, 0, 0, "-", "specified_numeric_field_filter"], [9, 0, 0, "-", "stopwords_filter"], [9, 0, 0, "-", "suffix_filter"], [9, 0, 0, "-", "text_action_filter"], [9, 0, 0, "-", "text_entity_dependency_filter"], [9, 0, 0, "-", "text_length_filter"], [9, 0, 0, "-", "token_num_filter"], [9, 0, 0, "-", "video_aesthetics_filter"], [9, 0, 0, "-", "video_aspect_ratio_filter"], [9, 0, 0, "-", "video_duration_filter"], [9, 0, 0, "-", "video_frames_text_similarity_filter"], [9, 0, 0, "-", "video_motion_score_filter"], [9, 0, 0, "-", "video_motion_score_raft_filter"], [9, 0, 0, "-", "video_nsfw_filter"], [9, 0, 0, "-", "video_ocr_area_ratio_filter"], [9, 0, 0, "-", "video_resolution_filter"], [9, 0, 0, "-", "video_tagging_from_frames_filter"], [9, 0, 0, "-", "video_watermark_filter"], [9, 0, 0, "-", "word_repetition_filter"], [9, 0, 0, "-", "words_num_filter"]], "data_juicer.ops.filter.AlphanumericFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.AudioDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioNMFSNRFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AverageLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.CharacterRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.FlaggedWordFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageFaceCountFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageFaceRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImagePairSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageShapeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextMatchingFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.LanguageIDScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.MaximumLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PerplexityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PhraseGroundingRecallFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecialCharactersFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.SpecifiedFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecifiedNumericFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.StopWordsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SuffixFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextActionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextEntityDependencyFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.TokenNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoFramesTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoMotionScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoMotionScoreRaftFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoOcrAreaRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "get_reader"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoResolutionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoTaggingFromFramesFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.WordRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.WordsNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.alphanumeric_filter": [[9, 1, 1, "", "AlphanumericFilter"]], "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.audio_duration_filter": [[9, 1, 1, "", "AudioDurationFilter"]], "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.audio_nmf_snr_filter": [[9, 1, 1, "", "AudioNMFSNRFilter"], [9, 3, 1, "", "compute_nmf_snr"], [9, 3, 1, "", "separate_signal_noise"]], "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.audio_size_filter": [[9, 1, 1, "", "AudioSizeFilter"]], "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.average_line_length_filter": [[9, 1, 1, "", "AverageLineLengthFilter"]], "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.character_repetition_filter": [[9, 1, 1, "", "CharacterRepetitionFilter"]], "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.flagged_words_filter": [[9, 1, 1, "", "FlaggedWordFilter"]], "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.image_aesthetics_filter": [[9, 1, 1, "", "ImageAestheticsFilter"]], "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_aspect_ratio_filter": [[9, 1, 1, "", "ImageAspectRatioFilter"]], "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.image_face_count_filter": [[9, 1, 1, "", "ImageFaceCountFilter"]], "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_face_ratio_filter": [[9, 1, 1, "", "ImageFaceRatioFilter"]], "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_nsfw_filter": [[9, 1, 1, "", "ImageNSFWFilter"]], "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_pair_similarity_filter": [[9, 1, 1, "", "ImagePairSimilarityFilter"]], "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_shape_filter": [[9, 1, 1, "", "ImageShapeFilter"]], "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_size_filter": [[9, 1, 1, "", "ImageSizeFilter"]], "data_juicer.ops.filter.image_size_filter.ImageSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_text_matching_filter": [[9, 1, 1, "", "ImageTextMatchingFilter"]], "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_text_similarity_filter": [[9, 1, 1, "", "ImageTextSimilarityFilter"]], "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_watermark_filter": [[9, 1, 1, "", "ImageWatermarkFilter"]], "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.language_id_score_filter": [[9, 1, 1, "", "LanguageIDScoreFilter"]], "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.maximum_line_length_filter": [[9, 1, 1, "", "MaximumLineLengthFilter"]], "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.perplexity_filter": [[9, 1, 1, "", "PerplexityFilter"]], "data_juicer.ops.filter.perplexity_filter.PerplexityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.phrase_grounding_recall_filter": [[9, 1, 1, "", "PhraseGroundingRecallFilter"], [9, 3, 1, "", "find_noun_phrases"], [9, 3, 1, "", "remove_punctuation"], [9, 3, 1, "", "run_ner"]], "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.special_characters_filter": [[9, 1, 1, "", "SpecialCharactersFilter"]], "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.specified_field_filter": [[9, 1, 1, "", "SpecifiedFieldFilter"]], "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[9, 1, 1, "", "SpecifiedNumericFieldFilter"], [9, 3, 1, "", "is_number"]], "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.stopwords_filter": [[9, 1, 1, "", "StopWordsFilter"]], "data_juicer.ops.filter.stopwords_filter.StopWordsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.suffix_filter": [[9, 1, 1, "", "SuffixFilter"]], "data_juicer.ops.filter.suffix_filter.SuffixFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_action_filter": [[9, 1, 1, "", "TextActionFilter"]], "data_juicer.ops.filter.text_action_filter.TextActionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_entity_dependency_filter": [[9, 1, 1, "", "TextEntityDependencyFilter"]], "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_length_filter": [[9, 1, 1, "", "TextLengthFilter"]], "data_juicer.ops.filter.text_length_filter.TextLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.token_num_filter": [[9, 1, 1, "", "TokenNumFilter"]], "data_juicer.ops.filter.token_num_filter.TokenNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_aesthetics_filter": [[9, 1, 1, "", "VideoAestheticsFilter"]], "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_aspect_ratio_filter": [[9, 1, 1, "", "VideoAspectRatioFilter"]], "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_duration_filter": [[9, 1, 1, "", "VideoDurationFilter"]], "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_frames_text_similarity_filter": [[9, 1, 1, "", "VideoFramesTextSimilarityFilter"]], "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_motion_score_filter": [[9, 3, 1, "", "VideoCapture"], [9, 1, 1, "", "VideoMotionScoreFilter"]], "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.video_motion_score_raft_filter": [[9, 1, 1, "", "VideoMotionScoreRaftFilter"]], "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.video_nsfw_filter": [[9, 1, 1, "", "VideoNSFWFilter"]], "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter": [[9, 1, 1, "", "VideoOcrAreaRatioFilter"], [9, 3, 1, "", "triangle_area"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "get_reader"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_resolution_filter": [[9, 1, 1, "", "VideoResolutionFilter"]], "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_tagging_from_frames_filter": [[9, 1, 1, "", "VideoTaggingFromFramesFilter"]], "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_watermark_filter": [[9, 1, 1, "", "VideoWatermarkFilter"]], "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.word_repetition_filter": [[9, 1, 1, "", "WordRepetitionFilter"]], "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.words_num_filter": [[9, 1, 1, "", "WordsNumFilter"]], "data_juicer.ops.filter.words_num_filter.WordsNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.grouper": [[10, 1, 1, "", "KeyValueGrouper"], [10, 1, 1, "", "NaiveGrouper"], [10, 1, 1, "", "NaiveReverseGrouper"], [10, 0, 0, "-", "key_value_grouper"], [10, 0, 0, "-", "naive_grouper"], [10, 0, 0, "-", "naive_reverse_grouper"]], "data_juicer.ops.grouper.KeyValueGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.NaiveGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.NaiveReverseGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.key_value_grouper": [[10, 1, 1, "", "KeyValueGrouper"]], "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.naive_grouper": [[10, 1, 1, "", "NaiveGrouper"]], "data_juicer.ops.grouper.naive_grouper.NaiveGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.naive_reverse_grouper": [[10, 1, 1, "", "NaiveReverseGrouper"]], "data_juicer.ops.grouper.naive_reverse_grouper.NaiveReverseGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.load": [[5, 3, 1, "", "load_ops"]], "data_juicer.ops.mapper": [[11, 1, 1, "", "AudioFFmpegWrappedMapper"], [11, 1, 1, "", "CalibrateQAMapper"], [11, 1, 1, "", "CalibrateQueryMapper"], [11, 1, 1, "", "CalibrateResponseMapper"], [11, 1, 1, "", "ChineseConvertMapper"], [11, 1, 1, "", "CleanCopyrightMapper"], [11, 1, 1, "", "CleanEmailMapper"], [11, 1, 1, "", "CleanHtmlMapper"], [11, 1, 1, "", "CleanIpMapper"], [11, 1, 1, "", "CleanLinksMapper"], [11, 1, 1, "", "DialogIntentDetectionMapper"], [11, 1, 1, "", "DialogSentimentDetectionMapper"], [11, 1, 1, "", "DialogSentimentIntensityMapper"], [11, 1, 1, "", "DialogTopicDetectionMapper"], [11, 1, 1, "", "ExpandMacroMapper"], [11, 1, 1, "", "ExtractEntityAttributeMapper"], [11, 1, 1, "", "ExtractEntityRelationMapper"], [11, 1, 1, "", "ExtractEventMapper"], [11, 1, 1, "", "ExtractKeywordMapper"], [11, 1, 1, "", "ExtractNicknameMapper"], [11, 1, 1, "", "ExtractSupportTextMapper"], [11, 1, 1, "", "FixUnicodeMapper"], [11, 1, 1, "", "GenerateQAFromExamplesMapper"], [11, 1, 1, "", "GenerateQAFromTextMapper"], [11, 1, 1, "", "ImageBlurMapper"], [11, 1, 1, "", "ImageCaptioningFromGPT4VMapper"], [11, 1, 1, "", "ImageCaptioningMapper"], [11, 1, 1, "", "ImageDiffusionMapper"], [11, 1, 1, "", "ImageFaceBlurMapper"], [11, 1, 1, "", "ImageTaggingMapper"], [11, 1, 1, "", "NlpaugEnMapper"], [11, 1, 1, "", "NlpcdaZhMapper"], [11, 1, 1, "", "OptimizeQAMapper"], [11, 1, 1, "", "OptimizeQueryMapper"], [11, 1, 1, "", "OptimizeResponseMapper"], [11, 1, 1, "", "PairPreferenceMapper"], [11, 1, 1, "", "PunctuationNormalizationMapper"], [11, 1, 1, "", "PythonFileMapper"], [11, 1, 1, "", "PythonLambdaMapper"], [11, 1, 1, "", "QueryIntentDetectionMapper"], [11, 1, 1, "", "QuerySentimentDetectionMapper"], [11, 1, 1, "", "QueryTopicDetectionMapper"], [11, 1, 1, "", "RelationIdentityMapper"], [11, 1, 1, "", "RemoveBibliographyMapper"], [11, 1, 1, "", "RemoveCommentsMapper"], [11, 1, 1, "", "RemoveHeaderMapper"], [11, 1, 1, "", "RemoveLongWordsMapper"], [11, 1, 1, "", "RemoveNonChineseCharacterlMapper"], [11, 1, 1, "", "RemoveRepeatSentencesMapper"], [11, 1, 1, "", "RemoveSpecificCharsMapper"], [11, 1, 1, "", "RemoveTableTextMapper"], [11, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"], [11, 1, 1, "", "ReplaceContentMapper"], [11, 1, 1, "", "SentenceSplitMapper"], [11, 1, 1, "", "TextChunkMapper"], [11, 1, 1, "", "VideoCaptioningFromAudioMapper"], [11, 1, 1, "", "VideoCaptioningFromFramesMapper"], [11, 1, 1, "", "VideoCaptioningFromSummarizerMapper"], [11, 1, 1, "", "VideoCaptioningFromVideoMapper"], [11, 1, 1, "", "VideoExtractFramesMapper"], [11, 1, 1, "", "VideoFFmpegWrappedMapper"], [11, 1, 1, "", "VideoFaceBlurMapper"], [11, 1, 1, "", "VideoRemoveWatermarkMapper"], [11, 1, 1, "", "VideoResizeAspectRatioMapper"], [11, 1, 1, "", "VideoResizeResolutionMapper"], [11, 1, 1, "", "VideoSplitByDurationMapper"], [11, 1, 1, "", "VideoSplitByKeyFrameMapper"], [11, 1, 1, "", "VideoSplitBySceneMapper"], [11, 1, 1, "", "VideoTaggingFromAudioMapper"], [11, 1, 1, "", "VideoTaggingFromFramesMapper"], [11, 1, 1, "", "WhitespaceNormalizationMapper"], [11, 0, 0, "-", "audio_ffmpeg_wrapped_mapper"], [11, 0, 0, "-", "calibrate_qa_mapper"], [11, 0, 0, "-", "calibrate_query_mapper"], [11, 0, 0, "-", "calibrate_response_mapper"], [11, 0, 0, "-", "chinese_convert_mapper"], [11, 0, 0, "-", "clean_copyright_mapper"], [11, 0, 0, "-", "clean_email_mapper"], [11, 0, 0, "-", "clean_html_mapper"], [11, 0, 0, "-", "clean_ip_mapper"], [11, 0, 0, "-", "clean_links_mapper"], [11, 0, 0, "-", "dialog_intent_detection_mapper"], [11, 0, 0, "-", "dialog_sentiment_detection_mapper"], [11, 0, 0, "-", "dialog_sentiment_intensity_mapper"], [11, 0, 0, "-", "dialog_topic_detection_mapper"], [11, 0, 0, "-", "expand_macro_mapper"], [11, 0, 0, "-", "extract_entity_attribute_mapper"], [11, 0, 0, "-", "extract_entity_relation_mapper"], [11, 0, 0, "-", "extract_event_mapper"], [11, 0, 0, "-", "extract_keyword_mapper"], [11, 0, 0, "-", "extract_nickname_mapper"], [11, 0, 0, "-", "extract_support_text_mapper"], [11, 0, 0, "-", "fix_unicode_mapper"], [11, 0, 0, "-", "generate_qa_from_examples_mapper"], [11, 0, 0, "-", "generate_qa_from_text_mapper"], [11, 0, 0, "-", "image_blur_mapper"], [11, 0, 0, "-", "image_captioning_from_gpt4v_mapper"], [11, 0, 0, "-", "image_captioning_mapper"], [11, 0, 0, "-", "image_diffusion_mapper"], [11, 0, 0, "-", "image_face_blur_mapper"], [11, 0, 0, "-", "image_tagging_mapper"], [11, 0, 0, "-", "nlpaug_en_mapper"], [11, 0, 0, "-", "nlpcda_zh_mapper"], [11, 0, 0, "-", "optimize_qa_mapper"], [11, 0, 0, "-", "optimize_query_mapper"], [11, 0, 0, "-", "optimize_response_mapper"], [11, 0, 0, "-", "pair_preference_mapper"], [11, 0, 0, "-", "punctuation_normalization_mapper"], [11, 0, 0, "-", "python_file_mapper"], [11, 0, 0, "-", "python_lambda_mapper"], [11, 0, 0, "-", "query_intent_detection_mapper"], [11, 0, 0, "-", "query_sentiment_detection_mapper"], [11, 0, 0, "-", "query_topic_detection_mapper"], [11, 0, 0, "-", "relation_identity_mapper"], [11, 0, 0, "-", "remove_bibliography_mapper"], [11, 0, 0, "-", "remove_comments_mapper"], [11, 0, 0, "-", "remove_header_mapper"], [11, 0, 0, "-", "remove_long_words_mapper"], [11, 0, 0, "-", "remove_non_chinese_character_mapper"], [11, 0, 0, "-", "remove_repeat_sentences_mapper"], [11, 0, 0, "-", "remove_specific_chars_mapper"], [11, 0, 0, "-", "remove_table_text_mapper"], [11, 0, 0, "-", "remove_words_with_incorrect_substrings_mapper"], [11, 0, 0, "-", "replace_content_mapper"], [11, 0, 0, "-", "sentence_split_mapper"], [11, 0, 0, "-", "text_chunk_mapper"], [11, 0, 0, "-", "video_captioning_from_audio_mapper"], [11, 0, 0, "-", "video_captioning_from_frames_mapper"], [11, 0, 0, "-", "video_captioning_from_summarizer_mapper"], [11, 0, 0, "-", "video_captioning_from_video_mapper"], [11, 0, 0, "-", "video_extract_frames_mapper"], [11, 0, 0, "-", "video_face_blur_mapper"], [11, 0, 0, "-", "video_ffmpeg_wrapped_mapper"], [11, 0, 0, "-", "video_remove_watermark_mapper"], [11, 0, 0, "-", "video_resize_aspect_ratio_mapper"], [11, 0, 0, "-", "video_resize_resolution_mapper"], [11, 0, 0, "-", "video_split_by_duration_mapper"], [11, 0, 0, "-", "video_split_by_key_frame_mapper"], [11, 0, 0, "-", "video_split_by_scene_mapper"], [11, 0, 0, "-", "video_tagging_from_audio_mapper"], [11, 0, 0, "-", "video_tagging_from_frames_mapper"], [11, 0, 0, "-", "whitespace_normalization_mapper"]], "data_juicer.ops.mapper.AudioFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_REFERENCE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.CalibrateResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.ChineseConvertMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanCopyrightMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanEmailMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanHtmlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanIpMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanLinksMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.DialogIntentDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.DialogSentimentDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.DialogSentimentIntensityMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INTENSITY_PATTERN"], [11, 4, 1, "", "DEFAULT_INTENSITY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.DialogTopicDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExpandMacroMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractEntityAttributeMapper": [[11, 4, 1, "", "DEFAULT_ATTR_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_DEMON_PATTERN"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEntityRelationMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_CONTINUE_PROMPT"], [11, 4, 1, "", "DEFAULT_ENTITY_PATTERN"], [11, 4, 1, "", "DEFAULT_ENTITY_TYPES"], [11, 4, 1, "", "DEFAULT_IF_LOOP_PROMPT"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RECORD_DELIMITER"], [11, 4, 1, "", "DEFAULT_RELATION_PATTERN"], [11, 4, 1, "", "DEFAULT_TUPLE_DELIMITER"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "add_message"], [11, 2, 1, "", "light_rag_extraction"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEventMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractKeywordMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractNicknameMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractSupportTextMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.FixUnicodeMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.GenerateQAFromExamplesMapper": [[11, 4, 1, "", "DEFAULT_EXAMPLE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.GenerateQAFromTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageCaptioningMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageDiffusionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageTaggingMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.NlpaugEnMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.NlpcdaZhMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.OptimizeQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.OptimizeQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.OptimizeResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.PairPreferenceMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PunctuationNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.PythonFileMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PythonLambdaMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.QueryIntentDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.QuerySentimentDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.QueryTopicDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RelationIdentityMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.RemoveBibliographyMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveCommentsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveHeaderMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveLongWordsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveRepeatSentencesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveSpecificCharsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveTableTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.ReplaceContentMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.SentenceSplitMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.TextChunkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_text_chunks"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "recursively_chunk"]], "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoExtractFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoRemoveWatermarkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeAspectRatioMapper": [[11, 4, 1, "", "STRATEGY"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeResolutionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoSplitByDurationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "split_videos_by_duration"]], "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_split_key_frame"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoSplitBySceneMapper": [[11, 2, 1, "", "__init__"], [11, 4, 1, "", "avaliable_detectors"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.WhitespaceNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper": [[11, 1, 1, "", "AudioFFmpegWrappedMapper"]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.calibrate_qa_mapper": [[11, 1, 1, "", "CalibrateQAMapper"]], "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_REFERENCE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.calibrate_query_mapper": [[11, 1, 1, "", "CalibrateQueryMapper"]], "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.calibrate_response_mapper": [[11, 1, 1, "", "CalibrateResponseMapper"]], "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.chinese_convert_mapper": [[11, 1, 1, "", "ChineseConvertMapper"], [11, 3, 1, "", "prepare_converter"]], "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[11, 1, 1, "", "CleanCopyrightMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_email_mapper": [[11, 1, 1, "", "CleanEmailMapper"]], "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_html_mapper": [[11, 1, 1, "", "CleanHtmlMapper"]], "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_ip_mapper": [[11, 1, 1, "", "CleanIpMapper"]], "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_links_mapper": [[11, 1, 1, "", "CleanLinksMapper"]], "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.dialog_intent_detection_mapper": [[11, 1, 1, "", "DialogIntentDetectionMapper"]], "data_juicer.ops.mapper.dialog_intent_detection_mapper.DialogIntentDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.dialog_sentiment_detection_mapper": [[11, 1, 1, "", "DialogSentimentDetectionMapper"]], "data_juicer.ops.mapper.dialog_sentiment_detection_mapper.DialogSentimentDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper": [[11, 1, 1, "", "DialogSentimentIntensityMapper"]], "data_juicer.ops.mapper.dialog_sentiment_intensity_mapper.DialogSentimentIntensityMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INTENSITY_PATTERN"], [11, 4, 1, "", "DEFAULT_INTENSITY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.dialog_topic_detection_mapper": [[11, 1, 1, "", "DialogTopicDetectionMapper"]], "data_juicer.ops.mapper.dialog_topic_detection_mapper.DialogTopicDetectionMapper": [[11, 4, 1, "", "DEFAULT_ANALYSIS_PATTERN"], [11, 4, 1, "", "DEFAULT_ANALYSIS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_CANDIDATES_TEMPLATE"], [11, 4, 1, "", "DEFAULT_LABELS_PATTERN"], [11, 4, 1, "", "DEFAULT_LABELS_TEMPLATE"], [11, 4, 1, "", "DEFAULT_QUERY_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RESPONSE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.expand_macro_mapper": [[11, 1, 1, "", "ExpandMacroMapper"]], "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper": [[11, 1, 1, "", "ExtractEntityAttributeMapper"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper": [[11, 4, 1, "", "DEFAULT_ATTR_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_DEMON_PATTERN"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_entity_relation_mapper": [[11, 1, 1, "", "ExtractEntityRelationMapper"]], "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_CONTINUE_PROMPT"], [11, 4, 1, "", "DEFAULT_ENTITY_PATTERN"], [11, 4, 1, "", "DEFAULT_ENTITY_TYPES"], [11, 4, 1, "", "DEFAULT_IF_LOOP_PROMPT"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RECORD_DELIMITER"], [11, 4, 1, "", "DEFAULT_RELATION_PATTERN"], [11, 4, 1, "", "DEFAULT_TUPLE_DELIMITER"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "add_message"], [11, 2, 1, "", "light_rag_extraction"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_event_mapper": [[11, 1, 1, "", "ExtractEventMapper"]], "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.extract_keyword_mapper": [[11, 1, 1, "", "ExtractKeywordMapper"]], "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_nickname_mapper": [[11, 1, 1, "", "ExtractNicknameMapper"]], "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_support_text_mapper": [[11, 1, 1, "", "ExtractSupportTextMapper"]], "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[11, 1, 1, "", "FixUnicodeMapper"]], "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper": [[11, 1, 1, "", "GenerateQAFromExamplesMapper"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper": [[11, 4, 1, "", "DEFAULT_EXAMPLE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper": [[11, 1, 1, "", "GenerateQAFromTextMapper"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_blur_mapper": [[11, 1, 1, "", "ImageBlurMapper"]], "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper": [[11, 1, 1, "", "ImageCaptioningFromGPT4VMapper"], [11, 3, 1, "", "call_gpt_vision_api"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_captioning_mapper": [[11, 1, 1, "", "ImageCaptioningMapper"]], "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_diffusion_mapper": [[11, 1, 1, "", "ImageDiffusionMapper"]], "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_face_blur_mapper": [[11, 1, 1, "", "ImageFaceBlurMapper"]], "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.image_tagging_mapper": [[11, 1, 1, "", "ImageTaggingMapper"]], "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[11, 1, 1, "", "NlpaugEnMapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[11, 1, 1, "", "NlpcdaZhMapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.optimize_qa_mapper": [[11, 1, 1, "", "OptimizeQAMapper"]], "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.optimize_query_mapper": [[11, 1, 1, "", "OptimizeQueryMapper"]], "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.optimize_response_mapper": [[11, 1, 1, "", "OptimizeResponseMapper"]], "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.pair_preference_mapper": [[11, 1, 1, "", "PairPreferenceMapper"]], "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[11, 1, 1, "", "PunctuationNormalizationMapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.python_file_mapper": [[11, 1, 1, "", "PythonFileMapper"]], "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.python_lambda_mapper": [[11, 1, 1, "", "PythonLambdaMapper"]], "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.query_intent_detection_mapper": [[11, 1, 1, "", "QueryIntentDetectionMapper"]], "data_juicer.ops.mapper.query_intent_detection_mapper.QueryIntentDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.query_sentiment_detection_mapper": [[11, 1, 1, "", "QuerySentimentDetectionMapper"]], "data_juicer.ops.mapper.query_sentiment_detection_mapper.QuerySentimentDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.query_topic_detection_mapper": [[11, 1, 1, "", "QueryTopicDetectionMapper"]], "data_juicer.ops.mapper.query_topic_detection_mapper.QueryTopicDetectionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.relation_identity_mapper": [[11, 1, 1, "", "RelationIdentityMapper"]], "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[11, 1, 1, "", "RemoveBibliographyMapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_comments_mapper": [[11, 1, 1, "", "RemoveCommentsMapper"]], "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_header_mapper": [[11, 1, 1, "", "RemoveHeaderMapper"]], "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[11, 1, 1, "", "RemoveLongWordsMapper"]], "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper": [[11, 1, 1, "", "RemoveNonChineseCharacterlMapper"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper": [[11, 1, 1, "", "RemoveRepeatSentencesMapper"], [11, 3, 1, "", "split_sentence"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[11, 1, 1, "", "RemoveSpecificCharsMapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[11, 1, 1, "", "RemoveTableTextMapper"]], "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[11, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.replace_content_mapper": [[11, 1, 1, "", "ReplaceContentMapper"]], "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.sentence_split_mapper": [[11, 1, 1, "", "SentenceSplitMapper"]], "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.text_chunk_mapper": [[11, 1, 1, "", "TextChunkMapper"]], "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_text_chunks"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "recursively_chunk"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper": [[11, 1, 1, "", "VideoCaptioningFromAudioMapper"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper": [[11, 1, 1, "", "VideoCaptioningFromFramesMapper"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper": [[11, 1, 1, "", "VideoCaptioningFromSummarizerMapper"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper": [[11, 1, 1, "", "VideoCaptioningFromVideoMapper"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_extract_frames_mapper": [[11, 1, 1, "", "VideoExtractFramesMapper"]], "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_face_blur_mapper": [[11, 1, 1, "", "VideoFaceBlurMapper"]], "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper": [[11, 1, 1, "", "VideoFFmpegWrappedMapper"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_remove_watermark_mapper": [[11, 1, 1, "", "VideoRemoveWatermarkMapper"]], "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper": [[11, 1, 1, "", "VideoResizeAspectRatioMapper"], [11, 3, 1, "", "rescale"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper": [[11, 4, 1, "", "STRATEGY"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_resize_resolution_mapper": [[11, 1, 1, "", "VideoResizeResolutionMapper"]], "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_split_by_duration_mapper": [[11, 1, 1, "", "VideoSplitByDurationMapper"], [11, 3, 1, "", "create_replacer"]], "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "split_videos_by_duration"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper": [[11, 1, 1, "", "VideoSplitByKeyFrameMapper"], [11, 3, 1, "", "create_replacer"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_split_key_frame"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_split_by_scene_mapper": [[11, 1, 1, "", "VideoSplitBySceneMapper"], [11, 3, 1, "", "replace_func"]], "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper": [[11, 2, 1, "", "__init__"], [11, 4, 1, "", "avaliable_detectors"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper": [[11, 1, 1, "", "VideoTaggingFromAudioMapper"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper": [[11, 1, 1, "", "VideoTaggingFromFramesMapper"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[11, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.op_fusion": [[5, 1, 1, "", "FusedFilter"], [5, 3, 1, "", "fuse_filter_group"], [5, 3, 1, "", "fuse_operators"]], "data_juicer.ops.op_fusion.FusedFilter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "process_batched"]], "data_juicer.ops.selector": [[12, 1, 1, "", "FrequencySpecifiedFieldSelector"], [12, 1, 1, "", "RandomSelector"], [12, 1, 1, "", "RangeSpecifiedFieldSelector"], [12, 1, 1, "", "TagsSpecifiedFieldSelector"], [12, 1, 1, "", "TopkSpecifiedFieldSelector"], [12, 0, 0, "-", "frequency_specified_field_selector"], [12, 0, 0, "-", "random_selector"], [12, 0, 0, "-", "range_specified_field_selector"], [12, 0, 0, "-", "tags_specified_field_selector"], [12, 0, 0, "-", "topk_specified_field_selector"]], "data_juicer.ops.selector.FrequencySpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RandomSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RangeSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.TagsSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.TopkSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[12, 1, 1, "", "FrequencySpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.random_selector": [[12, 1, 1, "", "RandomSelector"]], "data_juicer.ops.selector.random_selector.RandomSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.range_specified_field_selector": [[12, 1, 1, "", "RangeSpecifiedFieldSelector"]], "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.tags_specified_field_selector": [[12, 1, 1, "", "TagsSpecifiedFieldSelector"]], "data_juicer.ops.selector.tags_specified_field_selector.TagsSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.topk_specified_field_selector": [[12, 1, 1, "", "TopkSpecifiedFieldSelector"]], "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.utils": [[14, 0, 0, "-", "asset_utils"], [14, 0, 0, "-", "auto_install_mapping"], [14, 0, 0, "-", "auto_install_utils"], [14, 0, 0, "-", "availability_utils"], [14, 0, 0, "-", "cache_utils"], [14, 0, 0, "-", "ckpt_utils"], [14, 0, 0, "-", "common_utils"], [14, 0, 0, "-", "compress"], [14, 0, 0, "-", "constant"], [14, 0, 0, "-", "file_utils"], [14, 0, 0, "-", "fingerprint_utils"], [14, 0, 0, "-", "lazy_loader"], [14, 0, 0, "-", "logger_utils"], [14, 0, 0, "-", "mm_utils"], [14, 0, 0, "-", "model_utils"], [14, 0, 0, "-", "process_utils"], [14, 0, 0, "-", "registry"], [14, 0, 0, "-", "resource_utils"], [14, 0, 0, "-", "unittest_utils"]], "data_juicer.utils.asset_utils": [[14, 3, 1, "", "load_words_asset"]], "data_juicer.utils.auto_install_utils": [[14, 1, 1, "", "AutoInstaller"]], "data_juicer.utils.auto_install_utils.AutoInstaller": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "check"], [14, 2, 1, "", "install"]], "data_juicer.utils.cache_utils": [[14, 1, 1, "", "DatasetCacheControl"], [14, 3, 1, "", "dataset_cache_control"]], "data_juicer.utils.cache_utils.DatasetCacheControl": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.ckpt_utils": [[14, 1, 1, "", "CheckpointManager"]], "data_juicer.utils.ckpt_utils.CheckpointManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "check_ckpt"], [14, 2, 1, "", "check_ops_to_skip"], [14, 2, 1, "", "get_left_process_list"], [14, 2, 1, "", "load_ckpt"], [14, 2, 1, "", "record"], [14, 2, 1, "", "save_ckpt"]], "data_juicer.utils.common_utils": [[14, 3, 1, "", "avg_split_string_list_under_limit"], [14, 3, 1, "", "dict_to_hash"], [14, 3, 1, "", "is_float"], [14, 3, 1, "", "is_string_list"], [14, 3, 1, "", "nested_access"], [14, 3, 1, "", "stats_to_number"]], "data_juicer.utils.compress": [[14, 1, 1, "", "BaseCompressor"], [14, 1, 1, "", "CacheCompressManager"], [14, 1, 1, "", "CompressManager"], [14, 1, 1, "", "CompressionOff"], [14, 1, 1, "", "Compressor"], [14, 1, 1, "", "Extractor"], [14, 1, 1, "", "FileLock"], [14, 1, 1, "", "GzipCompressor"], [14, 1, 1, "", "Lz4Compressor"], [14, 1, 1, "", "ZstdCompressor"], [14, 3, 1, "", "cleanup_compressed_cache_files"], [14, 3, 1, "", "compress"], [14, 3, 1, "", "decompress"]], "data_juicer.utils.compress.BaseCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.CacheCompressManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "cleanup_cache_files"], [14, 2, 1, "", "compress"], [14, 2, 1, "", "decompress"], [14, 2, 1, "", "format_cache_file_name"]], "data_juicer.utils.compress.CompressManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "compress"], [14, 2, 1, "", "decompress"]], "data_juicer.utils.compress.Compressor": [[14, 2, 1, "", "compress"], [14, 4, 1, "", "compressors"]], "data_juicer.utils.compress.Extractor": [[14, 2, 1, "", "extract"]], "data_juicer.utils.compress.GzipCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.Lz4Compressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.ZstdCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.constant": [[14, 1, 1, "", "BatchMetaKeys"], [14, 1, 1, "", "Fields"], [14, 1, 1, "", "HashKeys"], [14, 1, 1, "", "InterVars"], [14, 1, 1, "", "JobRequiredKeys"], [14, 1, 1, "", "MetaKeys"], [14, 1, 1, "", "StatsKeys"], [14, 1, 1, "", "StatsKeysConstant"], [14, 1, 1, "", "StatsKeysMeta"]], "data_juicer.utils.constant.BatchMetaKeys": [[14, 4, 1, "", "entity_attribute"], [14, 4, 1, "", "most_relavant_entities"]], "data_juicer.utils.constant.Fields": [[14, 4, 1, "", "batch_meta"], [14, 4, 1, "", "context"], [14, 4, 1, "", "meta"], [14, 4, 1, "", "multimodal_data_output_dir"], [14, 4, 1, "", "source_file"], [14, 4, 1, "", "stats"], [14, 4, 1, "", "suffix"]], "data_juicer.utils.constant.HashKeys": [[14, 4, 1, "", "hash"], [14, 4, 1, "", "imagehash"], [14, 4, 1, "", "is_unique"], [14, 4, 1, "", "minhash"], [14, 4, 1, "", "simhash"], [14, 4, 1, "", "uid"], [14, 4, 1, "", "videohash"]], "data_juicer.utils.constant.InterVars": [[14, 4, 1, "", "lines"], [14, 4, 1, "", "loaded_audios"], [14, 4, 1, "", "loaded_images"], [14, 4, 1, "", "loaded_videos"], [14, 4, 1, "", "refined_words"], [14, 4, 1, "", "sampled_frames"], [14, 4, 1, "", "words"]], "data_juicer.utils.constant.JobRequiredKeys": [[14, 4, 1, "", "dj_configs"], [14, 4, 1, "", "extra_configs"], [14, 4, 1, "", "hook"], [14, 4, 1, "", "meta_name"]], "data_juicer.utils.constant.MetaKeys": [[14, 4, 1, "", "attribute_descriptions"], [14, 4, 1, "", "attribute_support_texts"], [14, 4, 1, "", "attributes"], [14, 4, 1, "", "dialog_intent_labels"], [14, 4, 1, "", "dialog_intent_labels_analysis"], [14, 4, 1, "", "dialog_sentiment_intensity"], [14, 4, 1, "", "dialog_sentiment_intensity_analysis"], [14, 4, 1, "", "dialog_sentiment_labels"], [14, 4, 1, "", "dialog_sentiment_labels_analysis"], [14, 4, 1, "", "dialog_topic_labels"], [14, 4, 1, "", "dialog_topic_labels_analysis"], [14, 4, 1, "", "entity"], [14, 4, 1, "", "entity_description"], [14, 4, 1, "", "entity_name"], [14, 4, 1, "", "entity_type"], [14, 4, 1, "", "event_description"], [14, 4, 1, "", "image_tags"], [14, 4, 1, "", "keyword"], [14, 4, 1, "", "main_entities"], [14, 4, 1, "", "nickname"], [14, 4, 1, "", "query_intent_label"], [14, 4, 1, "", "query_intent_score"], [14, 4, 1, "", "query_sentiment_label"], [14, 4, 1, "", "query_sentiment_score"], [14, 4, 1, "", "query_topic_label"], [14, 4, 1, "", "query_topic_score"], [14, 4, 1, "", "relation"], [14, 4, 1, "", "relation_description"], [14, 4, 1, "", "relation_keywords"], [14, 4, 1, "", "relation_strength"], [14, 4, 1, "", "relevant_characters"], [14, 4, 1, "", "role_relation"], [14, 4, 1, "", "source_entity"], [14, 4, 1, "", "support_text"], [14, 4, 1, "", "target_entity"], [14, 4, 1, "", "video_audio_tags"], [14, 4, 1, "", "video_frame_tags"], [14, 4, 1, "", "video_frames"]], "data_juicer.utils.constant.StatsKeysConstant": [[14, 4, 1, "", "alnum_ratio"], [14, 4, 1, "", "alpha_token_ratio"], [14, 4, 1, "", "aspect_ratios"], [14, 4, 1, "", "audio_duration"], [14, 4, 1, "", "audio_nmf_snr"], [14, 4, 1, "", "audio_sizes"], [14, 4, 1, "", "avg_line_length"], [14, 4, 1, "", "char_rep_ratio"], [14, 4, 1, "", "face_counts"], [14, 4, 1, "", "face_detections"], [14, 4, 1, "", "face_ratios"], [14, 4, 1, "", "flagged_words_ratio"], [14, 4, 1, "", "image_aesthetics_scores"], [14, 4, 1, "", "image_height"], [14, 4, 1, "", "image_nsfw_score"], [14, 4, 1, "", "image_pair_similarity"], [14, 4, 1, "", "image_sizes"], [14, 4, 1, "", "image_text_matching_score"], [14, 4, 1, "", "image_text_similarity"], [14, 4, 1, "", "image_watermark_prob"], [14, 4, 1, "", "image_width"], [14, 4, 1, "", "lang"], [14, 4, 1, "", "lang_score"], [14, 4, 1, "", "max_line_length"], [14, 4, 1, "", "num_action"], [14, 4, 1, "", "num_dependency_edges"], [14, 4, 1, "", "num_token"], [14, 4, 1, "", "num_words"], [14, 4, 1, "", "perplexity"], [14, 4, 1, "", "phrase_grounding_recall"], [14, 4, 1, "", "special_char_ratio"], [14, 4, 1, "", "stopwords_ratio"], [14, 4, 1, "", "text_len"], [14, 4, 1, "", "video_aesthetic_score"], [14, 4, 1, "", "video_aspect_ratios"], [14, 4, 1, "", "video_duration"], [14, 4, 1, "", "video_frames_aesthetics_score"], [14, 4, 1, "", "video_frames_text_similarity"], [14, 4, 1, "", "video_height"], [14, 4, 1, "", "video_motion_score"], [14, 4, 1, "", "video_nsfw_score"], [14, 4, 1, "", "video_ocr_area_ratio"], [14, 4, 1, "", "video_watermark_prob"], [14, 4, 1, "", "video_width"], [14, 4, 1, "", "word_rep_ratio"]], "data_juicer.utils.constant.StatsKeysMeta": [[14, 2, 1, "", "get_access_log"]], "data_juicer.utils.file_utils": [[14, 3, 1, "", "add_suffix_to_filename"], [14, 3, 1, "", "copy_data"], [14, 3, 1, "", "create_directory_if_not_exists"], [14, 3, 1, "", "find_files_with_suffix"], [14, 3, 1, "", "follow_read"], [14, 3, 1, "", "is_absolute_path"], [14, 3, 1, "", "transfer_filename"]], "data_juicer.utils.fingerprint_utils": [[14, 1, 1, "", "Hasher"], [14, 3, 1, "", "generate_fingerprint"], [14, 3, 1, "", "update_fingerprint"]], "data_juicer.utils.fingerprint_utils.Hasher": [[14, 2, 1, "", "__init__"], [14, 4, 1, "", "dispatch"], [14, 2, 1, "", "hash"], [14, 2, 1, "", "hash_bytes"], [14, 2, 1, "", "hash_default"], [14, 2, 1, "", "hexdigest"], [14, 2, 1, "", "update"]], "data_juicer.utils.lazy_loader": [[14, 1, 1, "", "LazyLoader"]], "data_juicer.utils.lazy_loader.LazyLoader": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.logger_utils": [[14, 1, 1, "", "HiddenPrints"], [14, 1, 1, "", "StreamToLoguru"], [14, 3, 1, "", "get_caller_name"], [14, 3, 1, "", "get_log_file_path"], [14, 3, 1, "", "redirect_sys_output"], [14, 3, 1, "", "setup_logger"]], "data_juicer.utils.logger_utils.StreamToLoguru": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "flush"], [14, 2, 1, "", "getvalue"], [14, 2, 1, "", "write"]], "data_juicer.utils.mm_utils": [[14, 6, 1, "", "AV_STREAM_THREAD_TYPE"], [14, 1, 1, "", "SpecialTokens"], [14, 3, 1, "", "calculate_resized_dimensions"], [14, 3, 1, "", "close_video"], [14, 3, 1, "", "cut_video_by_seconds"], [14, 3, 1, "", "detect_faces"], [14, 3, 1, "", "extract_audio_from_video"], [14, 3, 1, "", "extract_key_frames"], [14, 3, 1, "", "extract_key_frames_by_seconds"], [14, 3, 1, "", "extract_video_frames_uniformly"], [14, 3, 1, "", "extract_video_frames_uniformly_by_seconds"], [14, 3, 1, "", "get_decoded_frames_from_video"], [14, 3, 1, "", "get_file_size"], [14, 3, 1, "", "get_key_frame_seconds"], [14, 3, 1, "", "get_special_tokens"], [14, 3, 1, "", "get_video_duration"], [14, 3, 1, "", "image_byte_to_base64"], [14, 3, 1, "", "image_path_to_base64"], [14, 3, 1, "", "insert_texts_after_placeholders"], [14, 3, 1, "", "iou"], [14, 3, 1, "", "load_audio"], [14, 3, 1, "", "load_audios"], [14, 3, 1, "", "load_data_with_context"], [14, 3, 1, "", "load_image"], [14, 3, 1, "", "load_image_byte"], [14, 3, 1, "", "load_images"], [14, 3, 1, "", "load_images_byte"], [14, 3, 1, "", "load_video"], [14, 3, 1, "", "load_videos"], [14, 3, 1, "", "parse_string_to_roi"], [14, 3, 1, "", "pil_to_opencv"], [14, 3, 1, "", "process_each_frame"], [14, 3, 1, "", "remove_non_special_tokens"], [14, 3, 1, "", "remove_special_tokens"], [14, 3, 1, "", "size_to_bytes"], [14, 3, 1, "", "timecode_string_to_seconds"]], "data_juicer.utils.mm_utils.SpecialTokens": [[14, 4, 1, "", "audio"], [14, 4, 1, "", "eoc"], [14, 4, 1, "", "image"], [14, 4, 1, "", "video"]], "data_juicer.utils.model_utils": [[14, 1, 1, "", "APIModel"], [14, 3, 1, "", "check_model"], [14, 3, 1, "", "free_models"], [14, 3, 1, "", "get_backup_model_link"], [14, 3, 1, "", "get_model"], [14, 3, 1, "", "prepare_api_model"], [14, 3, 1, "", "prepare_diffusion_model"], [14, 3, 1, "", "prepare_fasttext_model"], [14, 3, 1, "", "prepare_huggingface_model"], [14, 3, 1, "", "prepare_kenlm_model"], [14, 3, 1, "", "prepare_model"], [14, 3, 1, "", "prepare_nltk_model"], [14, 3, 1, "", "prepare_opencv_classifier"], [14, 3, 1, "", "prepare_recognizeAnything_model"], [14, 3, 1, "", "prepare_sentencepiece_for_lang"], [14, 3, 1, "", "prepare_sentencepiece_model"], [14, 3, 1, "", "prepare_simple_aesthetics_model"], [14, 3, 1, "", "prepare_spacy_model"], [14, 3, 1, "", "prepare_video_blip_model"], [14, 3, 1, "", "prepare_vllm_model"]], "data_juicer.utils.model_utils.APIModel": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.process_utils": [[14, 3, 1, "", "calculate_np"], [14, 3, 1, "", "get_min_cuda_memory"], [14, 3, 1, "", "setup_mp"]], "data_juicer.utils.registry": [[14, 1, 1, "", "Registry"]], "data_juicer.utils.registry.Registry": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "get"], [14, 2, 1, "", "list"], [14, 5, 1, "", "modules"], [14, 5, 1, "", "name"], [14, 2, 1, "", "register_module"]], "data_juicer.utils.resource_utils": [[14, 3, 1, "", "get_cpu_count"], [14, 3, 1, "", "get_cpu_utilization"], [14, 3, 1, "", "query_cuda_info"], [14, 3, 1, "", "query_mem_info"]], "data_juicer.utils.unittest_utils": [[14, 1, 1, "", "DataJuicerTestCaseBase"], [14, 3, 1, "", "TEST_TAG"], [14, 3, 1, "", "set_clear_model_flag"]], "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase": [[14, 2, 1, "", "assertDatasetEqual"], [14, 2, 1, "", "generate_dataset"], [14, 2, 1, "", "run_single_op"], [14, 2, 1, "", "setUpClass"], [14, 2, 1, "", "tearDown"], [14, 2, 1, "", "tearDownClass"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"], "6": ["py", "data", "Python data"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property", "6": "py:data"}, "terms": {"": [1, 4, 6, 8, 9, 11, 14], "0": [3, 4, 5, 6, 8, 9, 11, 12, 14], "003": 9, "045": 9, "0b5": 11, "0x20": 11, "0\u4ee3\u8868\u60c5\u5448\u7eea\u4e2d\u6027": 11, "1": [1, 3, 4, 5, 6, 8, 9, 11, 12, 14], "10": [3, 6, 8, 9, 11], "100": 6, "1000": 8, "100\u5b57": 6, "10ve": 11, "11": 6, "12039": 9, "15": 11, "1500": 9, "16": 6, "17": 6, "176": 14, "19": 6, "1b8": 11, "1tb": 9, "2": [1, 6, 7, 9, 11, 14], "20": [1, 6, 8, 11], "2003": 9, "21": [9, 11], "22": 6, "24": 15, "25": 9, "256": 8, "27": 11, "27s_t": 1, "2nb": 11, "3": [6, 9, 11, 14], "308": 9, "333": 9, "384": 14, "3i4k": 11, "4": [1, 8, 9, 11, 14], "42": 4, "420": 14, "4593": 11, "4b": 11, "4o": [6, 11], "5": [3, 8, 9, 11], "500": [9, 11], "5\u52305\u4e4b\u95f4\u5230\u6574\u6570": 11, "5\u52305\u4e4b\u95f4\u6570\u503c\u8868\u793a\u60c5\u7eea\u4ece\u8d1f\u9762\u9010\u6e10\u5230\u6b63\u9762\u7684\u53d8\u5316\u8fc7\u7a0b": 11, "5\u8868\u793a\u6781\u5ea6\u6b63\u9762": 11, "5\u8868\u793a\u6781\u5ea6\u8d1f\u9762": 11, "6": [8, 9, 11], "6379": 8, "7": [8, 11, 14], "72b": 11, "7976931348623157e": 9, "7b": 11, "8": [9, 11], "8b": 11, "9": [6, 9, 11], "9223372036854775807": [9, 11], "95": [6, 9, 11], "9b": 9, "A": [5, 8, 11, 14], "And": [8, 11], "As": 9, "By": [9, 11, 14], "For": [1, 3, 5, 6, 8, 9, 11], "If": [1, 8, 9, 11, 14], "In": 1, "It": [4, 6, 8, 9, 10, 11, 14], "NO": 11, "Not": 11, "One": [11, 14], "The": [3, 4, 5, 6, 8, 9, 11, 12, 14], "There": 14, "These": 11, "To": 11, "__dj__audio": 14, "__dj__batch_meta__": 14, "__dj__context__": 14, "__dj__eoc": 14, "__dj__hash": 14, "__dj__imag": 14, "__dj__imagehash": 14, "__dj__is_uniqu": 14, "__dj__line": 14, "__dj__loaded_audio": 14, "__dj__loaded_imag": 14, "__dj__loaded_video": 14, "__dj__meta__": 14, "__dj__minhash": 14, "__dj__produced_data__": 14, "__dj__refined_word": 14, "__dj__sampled_fram": 14, "__dj__simhash": 14, "__dj__source_file__": 14, "__dj__stats__": [10, 14], "__dj__suffix__": 14, "__dj__uid": 14, "__dj__video": 14, "__dj__videohash": 14, "__dj__word": 14, "__init__": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "__path__": 2, "_core_web_md": 14, "_process": 14, "_resiz": 14, "_result_class": 1, "_suf": 14, "_whoop": 14, "ab": 9, "abc": [8, 14], "abc__dj_hash_": 14, "abc_res": 14, "abil": 11, "about": 11, "abov": [3, 11], "absolut": 14, "abstract": [8, 14], "acceler": 11, "accept": [11, 14], "access": 14, "accord": [4, 5, 9, 10, 11, 14], "account": 9, "acknowledg": 11, "act": 11, "action": [9, 11], "activ": 11, "actor": 8, "actorbackend": [5, 8], "ad": [7, 11, 14], "adapt": [0, 15, 16], "adaptivedetector": 11, "add": [3, 4, 5, 11, 14], "add_final_scen": 11, "add_messag": [5, 11], "add_paramet": [0, 5], "add_suffix": [0, 4], "add_suffix_to_filenam": [0, 14], "addit": [9, 11, 14], "address": [8, 11], "adjust": 11, "adopt": 9, "aesthet": [9, 14], "affect": 11, "after": [1, 2, 4, 7, 8, 9, 11, 14], "again": 14, "against": 11, "aggreg": [0, 5], "ai": [9, 11], "akin": 11, "alert": 11, "alex": 11, "algorightm": 8, "algorith": 9, "algorithm": [8, 11, 14], "alibaba": 11, "all": [1, 3, 7, 9, 10, 11, 14], "all_keyfram": [9, 11], "allow": [9, 11, 14], "almost": 11, "alnum_ratio": [0, 14], "along": 14, "alpha_token_ratio": [0, 14], "alphabet": [8, 9, 11], "alphanumer": 9, "alphanumeric_filt": [0, 5, 15], "alphanumericfilt": [5, 9, 14], "also": 7, "although": 8, "alwai": [8, 14], "among": 11, "amount": 11, "amrul": 9, "an": [1, 2, 4, 5, 6, 8, 9, 11, 14], "analysi": [0, 3, 11, 15, 16], "analysis_kei": 11, "analysis_pattern": 11, "analysis_templ": 11, "analyz": [0, 1, 2, 15, 16], "analyze_resource_util_list": [0, 3], "analyze_single_resource_util": [0, 3], "ani": [7, 9, 11, 14], "annot": [6, 8, 9, 11, 12, 14], "anoth": [11, 14], "answer": 11, "anticip": 11, "anxieti": 11, "any_or_al": [9, 11], "anyth": 9, "apex": 14, "api": [6, 11, 14], "api_endpoint": [6, 11], "api_kei": 11, "api_model": [6, 11], "apimodel": [0, 14], "appear": 11, "append": 14, "appli": [1, 8, 11, 12], "appropri": 4, "approxim": 9, "ar": [1, 2, 7, 8, 9, 11, 12, 14], "area": 9, "arg": [1, 2, 3, 4, 5, 8, 9, 10, 11, 12, 14], "argument": [1, 5, 6, 9, 11, 14], "arpa": 14, "arrai": [1, 8], "arxiv": 9, "asm": 4, "aspect": [9, 11], "aspect_ratio": [0, 14], "aspectratio": [9, 11], "assertdatasetequ": [0, 14], "asset": [9, 14], "asset_link": 14, "asset_util": [0, 16], "assist": 11, "associ": 11, "ast": 11, "async": 14, "asyncgener": 14, "attempt": [6, 11], "attitud": 11, "attr_dict": 2, "attr_pattern_templ": 11, "attribut": [0, 6, 11, 14], "attribute_desc_kei": 11, "attribute_descript": [0, 11, 14], "attribute_kei": 11, "attribute_nam": 11, "attribute_summari": [5, 6], "attribute_support_text": [0, 11, 14], "audio": [0, 5, 9, 11, 14], "audio_data": 9, "audio_dur": [0, 14], "audio_duration_filt": [0, 5, 15], "audio_ffmpeg_wrapped_mapp": [0, 5, 15], "audio_kei": 5, "audio_nmf_snr": [0, 14], "audio_nmf_snr_filt": [0, 5, 15], "audio_s": [0, 14], "audio_size_filt": [0, 5, 15], "audiodurationfilt": [5, 9], "audioffmpegwrappedmapp": [5, 11], "audionmfsnrfilt": [5, 9], "audioset": 11, "audiosizefilt": [5, 9], "aug_num": 11, "augment": [7, 9, 11], "authent": 11, "authoritarian": 11, "auto": [8, 14], "auto_instal": 14, "auto_install_map": [0, 16], "auto_install_util": [0, 16], "autoinstal": [0, 14], "automat": 14, "autonomi": 11, "av": 14, "av_stream_thread_typ": [0, 14], "ava1": 9, "avail": [3, 9, 14], "availability_util": [0, 16], "avaliable_detector": [5, 11], "averag": [3, 9], "average_line_length_filt": [0, 5, 15], "averagelinelengthfilt": [5, 9], "avg": [3, 9], "avg_line_length": [0, 14], "avg_split_string_list_under_limit": [0, 14], "avoid": [8, 14], "aw": 11, "ax": 1, "axi": 1, "b": [8, 11], "back": 11, "backdrop": 11, "backend": [5, 8], "baichuan2": 11, "band": 8, "bare": 11, "base": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "base64_imag": 11, "base_op": [0, 15, 16], "base_topic_classification_nyt_new": 11, "base_url": 14, "basecompressor": [0, 14], "baseformatt": [0, 4], "bash": 4, "basic": 8, "bat": 4, "batch": [5, 6, 8, 10, 11], "batch_meta": [0, 14], "batch_meta_export_path": 10, "batch_siz": 5, "batched_op": 11, "batchmetakei": [0, 14], "bbox": 9, "been": [11, 14], "befor": [5, 9, 14], "begin": [5, 11, 14], "being": [9, 11], "below": [9, 11], "besid": 11, "bespin": 11, "best": 1, "better": 9, "between": [7, 8, 9, 11, 14], "bf16": 11, "bibliographi": 11, "bigger": [4, 11], "bin": [1, 14], "bit": 14, "blip": [9, 11], "blip2": 11, "blob": 9, "block": [8, 14], "block_siz": 11, "blur": 11, "blur_typ": 11, "blure": 11, "bode": 11, "bodi": 11, "bool": [2, 8, 9, 11, 12, 14], "boolean": [5, 8, 9, 11, 14], "both": [11, 12, 14], "bottom": [9, 11, 14], "bound": 12, "box": [1, 11], "box1": 14, "box2": 14, "branch": 11, "bring": 11, "brought": 11, "bt": 8, "buf": 14, "buffer": 8, "build": 11, "build_input": [5, 11], "buzz": 11, "byte": [8, 9, 14], "c": 4, "cach": [2, 9, 14], "cache_file_nam": 14, "cache_util": [0, 16], "cachecompressmanag": [0, 14], "calc_minhash": [5, 8], "calcul": [8, 9, 11, 14], "calculate_hash": [5, 8], "calculate_np": [0, 14], "calculate_resized_dimens": [0, 14], "calibr": 11, "calibrate_qa_mapp": [0, 5, 15], "calibrate_query_mapp": [0, 5, 15], "calibrate_response_mapp": [0, 5, 15], "calibrateqamapp": [5, 11], "calibratequerymapp": [5, 11], "calibrateresponsemapp": [5, 11], "call": [5, 6, 11, 14], "call_gpt_vision_api": [5, 11], "callabl": 14, "caller": 14, "caller_nam": 14, "can": [9, 11, 14], "candid": 11, "candidate_str": 11, "candidate_templ": 11, "capabl": 11, "caption": [9, 11], "caption_kei": 11, "caption_num": 11, "captur": 11, "capture_stderr": 11, "case": [7, 8, 9, 11, 14, 15], "cast": 11, "catch_map_batches_except": [0, 5], "catch_map_single_except": [0, 5], "categor": 1, "categori": 1, "category_to_hist": [0, 1], "cc": 4, "central": 11, "certainti": 11, "cfg": [2, 4], "cfg_after_merg": 2, "ch_sim": 9, "challeng": 11, "chang": [11, 14], "char": [7, 9, 11], "char_rep_ratio": [0, 14], "charact": [7, 8, 9, 11], "character_repetition_filt": [0, 5, 15], "characterrepetitionfilt": [5, 9], "chars_to_remov": 11, "chat": 14, "chatml": 11, "check": [0, 2, 4, 11, 14], "check_ckpt": [0, 14], "check_model": [0, 14], "check_ops_to_skip": [0, 14], "check_pkg": 14, "checkpoint": [2, 14], "checkpointmanag": [0, 14], "chines": [7, 8, 9, 11], "chinese_convert_mapp": [0, 5, 15], "chineseclip": 9, "chineseconvertmapp": [5, 11], "choic": [6, 9, 11, 14], "choos": 11, "chunk": [9, 11], "ckpt_dir": 14, "ckpt_util": [0, 16], "clash": 11, "class": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "classif": 11, "classifi": [9, 11], "classmethod": [4, 14], "clean": [11, 14], "clean_copyright_mapp": [0, 5, 15], "clean_email_mapp": [0, 5, 15], "clean_html_mapp": [0, 5, 15], "clean_ip_mapp": [0, 5, 15], "clean_links_mapp": [0, 5, 15], "cleancopyrightmapp": [5, 11], "cleanemailmapp": [5, 11], "cleanhtmlmapp": [5, 11], "cleanipmapp": [5, 11], "cleanlinksmapp": [5, 11], "cleanup_cache_fil": [0, 14], "cleanup_compressed_cache_fil": [0, 14], "clearli": 11, "clench": 11, "client": 14, "clip": [9, 11, 14], "close": [6, 11, 14], "close_video": [0, 14], "closedunitinterv": 9, "closest": 1, "cmake": 4, "cmd": 4, "cnt": 6, "coco": 9, "code": [2, 11], "col": 1, "collect": [0, 1, 11], "collector": [0, 15, 16], "column": [1, 11], "column_nam": [1, 14], "column_wise_analysi": [0, 15, 16], "columnwiseanalysi": [0, 1], "com": 9, "combin": [11, 14], "command": [2, 4, 11], "comment": 11, "commit": 11, "common": [0, 5, 15], "common_util": [0, 16], "commun": 11, "compar": 14, "compat": 14, "competit": 11, "complet": [11, 14], "completion_delimit": 11, "comprehens": 11, "compress": [0, 16], "compressionoff": [0, 14], "compressmanag": [0, 14], "compressor": [0, 14], "compressor_format": 14, "compresss": 14, "comput": [0, 1, 3, 5, 7, 8, 9, 14], "compute_flow": [5, 9], "compute_hash": [0, 5, 8], "compute_nmf_snr": [5, 9], "compute_stat": 14, "compute_stats_batch": [0, 5, 9], "compute_stats_singl": [0, 5, 8, 9], "compvi": 11, "concat": 2, "concaten": [7, 11], "concentr": 11, "concept": 11, "conclus": 6, "condit": [9, 11], "conduct": [4, 5], "conf_thr": 9, "confid": 9, "config": [0, 5, 11, 14, 15, 16], "config_backup": [0, 2], "configur": [2, 4, 11, 14], "conflict": 11, "conifg": 2, "consequ": 4, "consid": [1, 6, 8, 9, 11], "consider_text": 8, "consider_video_caption_from_audio": 11, "consider_video_caption_from_fram": 11, "consider_video_caption_from_video": 11, "consider_video_tags_from_audio": 11, "consider_video_tags_from_fram": 11, "constant": [0, 16], "constraint": [9, 14], "construct": 11, "contact": 11, "contain": [4, 7, 9, 11, 14], "content": [15, 16], "content_keyword": 11, "contentdetector": 11, "context": [0, 5, 8, 9, 11, 14], "contigu": 11, "continu": [1, 11], "continue_prompt": 11, "contrast": 11, "contrib": 14, "control": [11, 14], "conveni": 5, "convers": 11, "convert": [7, 8, 11, 14], "convert_arrow_to_python": [0, 5], "convert_dict_list_to_list_dict": [0, 5], "convert_list_dict_to_dict_list": [0, 5], "coodin": 11, "coordin": [9, 11, 14], "copi": 14, "copy_data": [0, 14], "copyright": 11, "core": [0, 15, 16], "corner": [11, 14], "correspod": 14, "correspond": [5, 9, 11, 12, 14], "cosmic": 11, "could": [1, 11], "count": [1, 3, 9], "cpp": 4, "cpu": [3, 8], "cpu_requir": 14, "creat": [2, 4, 14], "create_directory_if_not_exist": [0, 14], "create_replac": [5, 11], "cross": 1, "cross_entropi": 1, "crossentropymeasur": [0, 1], "cruz": 11, "css": 4, "csv": [4, 14], "csv_formatt": [0, 15, 16], "csvformatt": [0, 4], "cuda_device_count": [0, 16], "curr_fram": 9, "current": [3, 14], "custom": [11, 14], "cut": [11, 14], "cut_video_by_second": [0, 14], "cv_classifi": [9, 11], "d": [4, 11, 14], "dashscop": 11, "data": [0, 1, 4, 5, 8, 9, 11, 14, 16], "data_juic": 15, "data_juicer_models_cach": 14, "data_path": [1, 14], "datajuc": 2, "datajuicertestcasebas": [0, 14], "datas": 4, "dataset": [1, 3, 4, 5, 8, 9, 10, 11, 12, 14], "dataset_cache_control": [0, 14], "dataset_path": 4, "datasetcachecontrol": [0, 14], "datasetdict": 4, "datasketch": 8, "datasset": 4, "db": 9, "decid": [5, 8, 9, 14], "decod": 14, "decompress": [0, 14], "deconstruct": 14, "decor": 14, "decreas": 11, "dedup": [8, 9], "dedup_set_num": 8, "dedupl": [0, 5, 11, 15], "deep": 11, "default": [1, 2, 4, 6, 8, 9, 10, 11, 14], "default_analysis_pattern": [5, 11], "default_analysis_templ": [5, 11], "default_attr_pattern_templ": [5, 11], "default_candidates_templ": [5, 11], "default_completion_delimit": [5, 11], "default_continue_prompt": [5, 11], "default_demon_pattern": [5, 11], "default_entity_pattern": [5, 11], "default_entity_typ": [5, 11], "default_example_prompt": [5, 6], "default_example_templ": [5, 11], "default_if_loop_prompt": [5, 11], "default_input_templ": [5, 6, 11], "default_intensity_pattern": [5, 11], "default_intensity_templ": [5, 11], "default_labels_pattern": [5, 11], "default_labels_templ": [5, 11], "default_output_pattern": [5, 6, 11], "default_output_pattern_templ": [5, 6, 11], "default_prompt_templ": [5, 11], "default_qa_pair_templ": [5, 11], "default_query_templ": [5, 11], "default_record_delimit": [5, 11], "default_reference_templ": [5, 11], "default_relation_pattern": [5, 11], "default_response_templ": [5, 11], "default_sub_doc_templ": [5, 6], "default_system_prompt": [5, 6, 11], "default_system_prompt_templ": [5, 11], "default_system_templ": [5, 6], "default_tag_templ": [5, 6], "default_target_tag_templ": [5, 6], "default_tuple_delimit": [5, 11], "defaut": 2, "defin": [11, 14], "definit": [5, 11], "delet": 11, "delete_random_char": 11, "delete_random_word": 11, "delimit": [4, 11], "delimiter_in_insert_po": 14, "demo_pattern": 11, "demonstract": 11, "denois": 11, "denot": 11, "dens": 9, "depend": [8, 9, 11, 14], "depth": 14, "descend": [6, 12], "describ": 1, "descript": 11, "design": 11, "desir": 14, "detail": [9, 11, 15], "detect": [3, 8, 9, 11], "detect_fac": [0, 14], "detection_method": 11, "detector": [11, 14], "determin": [8, 11, 12], "devic": [11, 14], "diagon": 9, "dialog": 11, "dialog_intent_detection_mapp": [0, 5, 15], "dialog_intent_label": [0, 11, 14], "dialog_intent_labels_analysi": [0, 11, 14], "dialog_sentiment_detection_mapp": [0, 5, 15], "dialog_sentiment_intens": [0, 11, 14], "dialog_sentiment_intensity_analysi": [0, 11, 14], "dialog_sentiment_intensity_mapp": [0, 5, 15], "dialog_sentiment_label": [0, 6, 11, 14], "dialog_sentiment_labels_analysi": [0, 11, 14], "dialog_topic_detection_mapp": [0, 5, 15], "dialog_topic_label": [0, 11, 14], "dialog_topic_labels_analysi": [0, 11, 14], "dialogintentdetectionmapp": [5, 11], "dialogsentimentdetectionmapp": [5, 11], "dialogsentimentintensitymapp": [5, 11], "dialogtopicdetectionmapp": [5, 11], "dialogu": 11, "dict": [2, 3, 5, 6, 11, 14], "dict_to_hash": [0, 14], "dictionari": [11, 14], "did": 11, "differ": [4, 7, 8, 9, 11], "diffus": [11, 14], "diffusion_typ": 14, "digit": [8, 14], "digit_allow": 14, "dill": 14, "dimens": [9, 11, 14], "dir": 4, "directli": [8, 11], "directori": [2, 4, 5, 9, 11, 14], "directory_path": 14, "disabl": 11, "discard": 11, "discoveri": 11, "discret": 1, "disk": 1, "dismiss": 11, "dispatch": [0, 14], "displai": 1, "display_config": [0, 2], "distanc": 8, "distilroberta": 11, "distribut": [1, 3, 11], "distributed_rank": 14, "diverg": 1, "divers": [1, 11], "diversity_analysi": [0, 15, 16], "diversityanalysi": [0, 1], "divis": [9, 11, 14], "dj_cfg": 14, "dj_config": [0, 14], "djdataset": 14, "do": 2, "doc": [1, 5, 6, 8], "doc2qa": 11, "doc_typ": 11, "dockerfil": 4, "document": [6, 7, 8, 9, 11], "document_dedupl": [0, 5, 15], "document_minhash_dedupl": [0, 5, 15], "document_simhash_dedupl": [0, 5, 15], "documentdedupl": [5, 8], "documentminhashdedupl": [5, 8], "documentsimhashdedupl": [5, 8], "docx": [4, 9], "doe": 14, "domain": 11, "dot": 14, "doubl": 11, "download": 14, "draw": [0, 15, 16], "draw_box": [0, 1], "draw_heatmap": [0, 1], "draw_hist": [0, 1], "draw_resource_util_graph": [0, 3], "draw_wordcloud": [0, 1], "drop": [10, 11], "drop_no_head": 11, "drop_text": 11, "ds_dir": 4, "ds_file": 4, "dstefa": 11, "dull": 11, "dump": 14, "duplic": [5, 8], "durat": [9, 11, 14], "dure": 3, "dynam": 11, "dynamic_field": [0, 3], "e": [2, 4, 6, 9, 11, 14], "e501": [1, 9], "each": [1, 2, 3, 5, 6, 8, 11, 14], "earlier": 11, "easi": 14, "easyocr": 9, "edf": 14, "edg": [8, 9, 11, 14], "edit": 5, "ego4d": 11, "either": [8, 11], "element": [7, 14], "eleutherai": 9, "els": 14, "email": 11, "emoji": 7, "empti": [4, 8, 11], "empty_formatt": [0, 15, 16], "empty_hash_valu": [5, 8], "empty_histori": [0, 5], "emptyformatt": [0, 4, 11], "en": [1, 7, 9, 11, 14], "enabl": 11, "enable_vllm": 11, "encod": 14, "encourag": 11, "encrypt": 11, "end": [11, 14], "end_second": 14, "endpoint": [6, 11, 14], "energi": 11, "enforc": 11, "english": [8, 9, 11], "enlarg": 11, "ensu": 11, "ensur": 11, "entir": 11, "entiti": [0, 6, 9, 11, 14], "entity1": 11, "entity2": 11, "entity_attribut": [0, 6, 14], "entity_attribute_aggreg": [0, 5], "entity_attribute_kei": 11, "entity_descript": [0, 11, 14], "entity_entity_descript": 14, "entity_kei": 11, "entity_nam": [0, 11, 14], "entity_pattern": 11, "entity_typ": [0, 6, 11, 14], "entityattributeaggreg": [5, 6], "entri": 2, "entropi": 1, "entropymeasur": [0, 1], "enum": 14, "enumer": 14, "environ": [2, 3, 14], "eoc": [0, 14], "equal": [9, 11, 12], "equival": 11, "error": [6, 11], "especi": [7, 9], "essenti": 11, "etc": [1, 4, 14], "even": 11, "evenli": 9, "event": 11, "event_desc_kei": 11, "event_descript": [0, 6, 11, 14], "everi": [4, 11], "exact": 8, "exampl": [6, 9, 11, 14], "example_num": 11, "example_prompt": 6, "example_templ": 11, "exce": [9, 11], "except": 11, "exclud": 2, "execut": 11, "executor": [0, 2, 14, 15, 16], "exist": [2, 14], "expand": 11, "expand_macro_mapp": [0, 5, 15], "expandmacromapp": [5, 11], "expect": [2, 5, 11], "expens": 11, "experi": 11, "explan": 11, "explor": 11, "export": [0, 1, 4, 5, 10, 15, 16], "export_config": [0, 2], "express": 11, "extens": 14, "extent": 11, "extra": [1, 2, 3, 4, 6, 8, 9, 10, 11, 12], "extra_config": [0, 14], "extra_kwarg": 14, "extra_param_dict": 5, "extract": [0, 4, 6, 9, 11, 14], "extract_audio_from_video": [0, 14], "extract_entity_attribute_mapp": [0, 5, 15], "extract_entity_relation_mapp": [0, 5, 15], "extract_event_mapp": [0, 5, 15], "extract_key_fram": [0, 14], "extract_key_frames_by_second": [0, 14], "extract_keyword_mapp": [0, 5, 15], "extract_nickname_mapp": [0, 5, 15], "extract_support_text_mapp": [0, 5, 15], "extract_txt_from_docx": [0, 4], "extract_txt_from_pdf": [0, 4], "extract_video_frames_uniformli": [0, 14], "extract_video_frames_uniformly_by_second": [0, 14], "extractentityattributemapp": [5, 11], "extractentityrelationmapp": [5, 11], "extracteventmapp": [5, 11], "extractkeywordmapp": [5, 11], "extractnicknamemapp": [5, 11], "extractor": [0, 14], "extractor_format": 14, "extractsupporttextmapp": [5, 11], "ey": 11, "f": 4, "f03": 4, "f08": 4, "f77": 4, "f90": 4, "f95": 4, "face": [9, 11, 14], "face_count": [0, 14], "face_detect": [0, 14], "face_ratio": [0, 14], "factor": 1, "fade_bia": 11, "failur": [11, 14], "falconsai": 9, "fals": [1, 2, 4, 5, 7, 8, 9, 11, 14], "false_negative_weight": 8, "false_positive_weight": 8, "falter": 11, "farneback": 9, "faster": [7, 14], "fasttext": 14, "fault": 5, "featur": [1, 4], "feature_kei": [4, 11], "fff": 14, "ffmpeg": [11, 14], "field": [0, 1, 3, 4, 5, 6, 8, 9, 11, 12, 14], "field_kei": [9, 12], "fieldinfo": [8, 11, 12], "figsiz": 1, "figur": [1, 11], "file": [1, 2, 4, 5, 9, 11, 14], "file_path": 11, "file_suf": 14, "file_util": [0, 16], "filelock": [0, 14], "filenam": 14, "filter": [0, 4, 5, 8, 11, 15], "filter_kwarg": 11, "filter_nam": 11, "filter_with_union_find": [5, 8], "final": [8, 11], "financi": 11, "find": [1, 5, 7, 8, 14], "find_files_with_suffix": [0, 14], "find_noun_phras": [5, 9], "find_root_verb_and_its_dobj": [0, 1], "find_root_verb_and_its_dobj_in_str": [0, 1], "finetun": 11, "fingerprint": 14, "fingerprint_util": [0, 16], "fingerprintd": 14, "finish": 11, "first": [1, 3, 7, 8, 9, 11, 14], "first_sent": 1, "fix": 11, "fix_unicode_mapp": [0, 5, 15], "fixtur": 14, "fixunicodemapp": [5, 11], "flag": [9, 14], "flagged_word": 9, "flagged_words_dir": 9, "flagged_words_filt": [0, 5, 15], "flagged_words_ratio": [0, 14], "flaggedwordfilt": [5, 9], "fleet": 11, "flip": [9, 11], "float": [8, 9, 11, 12, 14], "flow": 9, "flurri": 11, "flush": [0, 14], "fn": 4, "focus": 11, "folder": 8, "follow": [3, 4, 11], "follow_read": [0, 14], "forc": [11, 14], "force_divisible_bi": 11, "force_original_aspect_ratio": 11, "forcefulli": 14, "forg": 11, "form": [11, 14], "format": [0, 2, 9, 11, 14, 15, 16], "format_cache_file_nam": [0, 14], "formatt": [0, 15, 16], "former": [9, 11], "found": [9, 11, 14], "foundat": 15, "four": 14, "fp16": 11, "fp32": 11, "fpp": 4, "frame": [9, 11, 14], "frame_dir": 11, "frame_func": 14, "frame_kei": 11, "frame_num": [9, 11, 14], "frame_sample_num": 9, "frame_sampling_method": [9, 11], "frames_per_second": 9, "free": 3, "free_model": [0, 14], "frequenc": [6, 12], "frequency_specified_field_selector": [0, 5, 15], "frequencyspecifiedfieldselector": [5, 12], "frequent": 11, "from": [2, 4, 5, 6, 7, 8, 9, 11, 12, 14], "from_dir": 14, "frustrat": 11, "ftp": 11, "full": [9, 11, 14], "func": 3, "function": [1, 7, 8, 11, 14], "function_nam": 11, "further": 9, "fuse": 5, "fuse_filter_group": [0, 5], "fuse_oper": [0, 5], "fused_filt": 5, "fusedfilt": [0, 5], "futur": 11, "g": [2, 4, 6, 11, 14], "game": 11, "gaussian": 11, "ge": [8, 11, 12], "gener": [1, 11, 14], "generate_dataset": [0, 14], "generate_fingerprint": [0, 14], "generate_qa_from_examples_mapp": [0, 5, 15], "generate_qa_from_text_mapp": [0, 5, 15], "generated_dataset_config": [4, 11], "generateqafromexamplesmapp": [5, 11], "generateqafromtextmapp": [5, 11], "geo": 11, "get": [0, 1, 4, 5, 7, 14], "get_access_log": [0, 14], "get_backup_model_link": [0, 14], "get_caller_nam": [0, 14], "get_cpu_count": [0, 14], "get_cpu_util": [0, 14], "get_decoded_frames_from_video": [0, 14], "get_divers": [0, 1], "get_file_s": [0, 14], "get_hash_method": [5, 8], "get_init_config": [0, 2], "get_key_frame_second": [0, 14], "get_left_process_list": [0, 14], "get_log_file_path": [0, 14], "get_min_cuda_memori": [0, 14], "get_model": [0, 14], "get_read": [5, 9], "get_row_col": [0, 1], "get_sentences_from_docu": [5, 7], "get_special_token": [0, 14], "get_split_key_fram": [5, 11], "get_text_chunk": [5, 11], "get_video_dur": [0, 14], "get_words_from_docu": [5, 7], "getvalu": [0, 14], "git": 11, "github": 9, "give": [11, 15], "given": [1, 3, 6, 9, 10, 11, 14], "glean": 11, "glimps": 11, "global": [2, 4, 11], "global_arg": 11, "global_cfg": 4, "go": 4, "goal": 11, "googl": 9, "govern": 11, "gpt": [6, 11], "gpt4": 11, "gpu": [3, 14], "gram": 9, "grand": 11, "graph": 11, "graviti": 11, "greater": [9, 11, 12], "grid": 1, "ground": 9, "group": [1, 5, 7, 8, 9, 10], "group_by_kei": 10, "group_siz": 7, "grouper": [0, 5, 6], "gt": [6, 8, 9, 11, 12, 14], "guid": 11, "guidanc": [11, 15], "guidance_scal": 11, "gz": 14, "gzip": 14, "gzipcompressor": [0, 14], "h": [4, 9, 11], "ha": [11, 14], "haarcascade_frontalface_alt": [9, 11], "had": 11, "half": 8, "ham": 8, "hamming_dist": 8, "hand": 11, "hard": 2, "hash": [0, 5, 8, 14], "hash_byt": [0, 14], "hash_default": [0, 14], "hash_length": 14, "hash_val": 14, "hash_val1": 14, "hash_val2": 14, "hasher": [0, 14], "hashkei": [0, 14], "have": [9, 11], "he": 11, "header": 11, "heartbeat": 11, "heatmap": 1, "heaven": 11, "height": [9, 11, 14], "helper": 14, "helper_func": [0, 5, 15], "helsinki": 11, "here": [9, 11, 14, 15], "hexdigest": [0, 14], "hf": 11, "hf_ast": 11, "hf_blip": 9, "hf_clip": 9, "hf_diffus": 11, "hf_img2seq": 11, "hf_model": 11, "hf_model_nam": 14, "hf_nsfw_model": 9, "hf_owlvit": 9, "hf_scorer_model": 9, "hf_summar": 11, "hf_token": 9, "hf_video_blip": 11, "hf_watermark_model": 9, "hh": [4, 14], "hi": 11, "hiddenprint": [0, 14], "hide": 14, "high": [9, 11], "high_level_keyword": 11, "higher": 11, "him": 11, "histogram": 1, "histori": [5, 11], "history_kei": [5, 11], "hk2": 11, "hk2t": 11, "home": 9, "homophon": 11, "hong": 11, "hook": [0, 14], "horizont": [9, 11], "horizontal_flip": [9, 11], "how": 11, "hpp": 4, "html": [1, 4, 9, 11], "http": [1, 9, 11], "hub": 4, "hug": [9, 11, 14], "hugginfac": 11, "huggingfac": [1, 4, 9, 11, 14], "human": 11, "hzz": 9, "i": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 14], "id": [11, 14], "idea": 11, "ident": 11, "identif": 9, "identifi": [9, 11, 14], "ideolog": 11, "idiom": 11, "if_loop_prompt": 11, "ignor": [8, 11], "ignore_non_charact": 8, "ignore_pattern": 8, "ignore_special_charact": 11, "illus": 11, "imag": [0, 1, 5, 8, 9, 11, 14], "image2imag": 14, "image_aesthetics_filt": [0, 5, 15], "image_aesthetics_scor": [0, 14], "image_aspect_ratio_filt": [0, 5, 15], "image_blur_mapp": [0, 5, 15], "image_byt": 14, "image_byte_to_base64": [0, 14], "image_captioning_from_gpt4v_mapp": [0, 5, 15], "image_captioning_mapp": [0, 5, 15], "image_dedupl": [0, 5, 15], "image_diffusion_mapp": [0, 5, 15], "image_face_blur_mapp": [0, 5, 15], "image_face_count_filt": [0, 5, 15], "image_face_ratio_filt": [0, 5, 15], "image_height": [0, 14], "image_kei": 5, "image_nsfw_filt": [0, 5, 15], "image_nsfw_scor": [0, 14], "image_pair_similar": [0, 14], "image_pair_similarity_filt": [0, 5, 15], "image_path": 14, "image_path_to_base64": [0, 14], "image_s": [0, 14], "image_shape_filt": [0, 5, 15], "image_size_filt": [0, 5, 15], "image_tag": [0, 11, 14], "image_tagging_mapp": [0, 5, 15], "image_text_matching_filt": [0, 5, 15], "image_text_matching_scor": [0, 14], "image_text_similar": [0, 14], "image_text_similarity_filt": [0, 5, 15], "image_watermark_filt": [0, 5, 15], "image_watermark_prob": [0, 14], "image_width": [0, 14], "imageaestheticsfilt": [5, 9], "imageaspectratiofilt": [5, 9], "imageblurmapp": [5, 11], "imagecaptioningfromgpt4vmapp": [5, 11], "imagecaptioningmapp": [5, 11], "imagededupl": [5, 8], "imagediffusionmapp": [5, 11], "imagefaceblurmapp": [5, 11], "imagefacecountfilt": [5, 9], "imagefaceratiofilt": [5, 9], "imagehash": [0, 14], "imagensfwfilt": [5, 9], "imagepairsimilarityfilt": [5, 9], "imageshapefilt": [5, 9], "imagesizefilt": [5, 9], "imagetaggingmapp": [5, 11], "imagetextmatchingfilt": [5, 9], "imagetextsimilarityfilt": [5, 9], "imagewatermarkfilt": [5, 9], "impact": 11, "implement": 8, "implic": 11, "import": [6, 11, 14], "includ": [1, 2, 5, 8, 9, 11, 14], "incompat": 14, "incomplet": 14, "incorrect": 11, "increas": 11, "independ": [9, 11], "index": [5, 14, 15], "index_kei": 5, "indexerror": 14, "indic": [1, 11, 14], "infer": 11, "influenc": 11, "info": [4, 5, 11, 14], "inform": [1, 3, 5, 8, 9, 11, 12], "init": [2, 5], "init_config": [0, 2], "init_parameter_dict": 5, "init_setup_from_cfg": [0, 2], "initi": [1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "inlin": 11, "inpaint": 14, "input": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14], "input_dict": 14, "input_kei": 6, "input_path": 14, "input_s": 14, "input_templ": [6, 11], "input_text": 11, "input_video": 14, "inputcontain": 14, "insert": 11, "insert_random_char": 11, "insert_texts_after_placehold": [0, 14], "instal": [0, 14], "instanc": [5, 14], "instead": [4, 7], "instruct": 11, "int": [4, 6, 8, 9, 11, 12, 14], "integ": [11, 14], "intellig": 11, "intens": 11, "intensities_kei": 11, "intensity_pattern": 11, "intensity_templ": 11, "intent": 11, "intent_candid": 11, "interact": [11, 14], "interfac": 11, "intermedi": [5, 8, 9], "intern": [4, 14], "interv": 3, "intervar": [0, 14], "intric": 11, "introspect": 11, "invert": 7, "invok": 11, "involv": 11, "inward": 11, "iou": [0, 9, 14], "iou_thr": 9, "ipv4": 11, "ipv6": 11, "is_absolute_path": [0, 14], "is_batched_op": [0, 5], "is_cuda_avail": [0, 16], "is_float": [0, 14], "is_numb": [5, 9], "is_singleton": 14, "is_string_list": [0, 14], "is_uniqu": [0, 5, 8, 14], "item": [2, 3, 5, 11], "iter": [9, 11, 14], "itm": 9, "its": [1, 4, 5, 6, 8, 9, 11, 14], "j": 4, "jaccard": 8, "jaccard_threshold": 8, "jaid": 9, "japanes": 11, "java": 4, "jaw": 11, "jensen": 1, "jl": 4, "jobrequiredkei": [0, 14], "join": 9, "join_char": 7, "jordan": 11, "jp2t": 11, "jpg": 14, "js_diverg": 1, "jsdivmeasur": [0, 1], "json": [2, 4, 9, 14], "json_formatt": [0, 15, 16], "json_ind": 2, "jsonargpars": 2, "jsonformatt": [0, 4], "jsonl": 4, "jsonnet": 2, "judg": 11, "juicer": 11, "just": 10, "kanji": 11, "kb": 9, "kdd": 15, "keep": [1, 5, 8, 9, 11, 14], "keep_alphabet": 11, "keep_candidate_mod": 11, "keep_numb": 11, "keep_original_sampl": 11, "keep_punc": 11, "keep_tag_num": 11, "kei": [1, 4, 5, 6, 9, 10, 11, 12, 14], "kenlm": 14, "kept": [8, 9, 11], "kernel": 11, "kernel_s": 11, "key_value_group": [0, 5], "keyboard": 11, "keyboard_error_char": 11, "keyerror": 14, "keyfram": [9, 14], "keyvaluegroup": [5, 10], "keyword": [0, 6, 9, 11, 14], "keyword_kei": 11, "kind": [9, 11], "kl_diverg": 1, "kldivmeasur": [0, 1], "klue": 11, "knowledg": 11, "kong": 11, "kpyu": 11, "kullback": 1, "kwarg": [1, 4, 5, 6, 8, 9, 10, 11, 12, 14], "ky\u016bjitai": 11, "l14": 9, "label": [1, 11], "label_kei": 11, "labels_kei": 11, "labels_pattern": 11, "labels_templ": 11, "labl": 1, "lai": 11, "lambda": 11, "lambda_str": 11, "lang": [0, 9, 11, 14], "lang_or_model": 1, "lang_scor": [0, 14], "langaug": 14, "languag": [1, 8, 9, 11, 14], "language_id_score_filt": [0, 5, 15], "languageidscorefilt": [5, 9], "languages_to_detect": 9, "larg": [9, 14], "large_area_ratio_thr": 9, "larger": [9, 11, 12, 14], "largest": [1, 9, 12], "last": [9, 11, 14], "latenc": 14, "latest": 14, "latex": 11, "latter": [9, 11], "lazili": 14, "lazy_load": [0, 16], "lazyload": [0, 14], "le": [8, 11, 12], "lead": 11, "leader": 11, "leadership": 11, "leak": 14, "learn": 11, "leav": 11, "left": [9, 11, 14], "leibler": 1, "len": 11, "length": [4, 6, 9, 11, 14], "less": [8, 9, 11, 12, 14], "letter": 11, "level": [3, 5, 6, 7, 8, 9, 11, 12, 14], "lexic": 1, "librari": [11, 14], "lid": 14, "light_rag_extract": [5, 11], "like": [7, 8, 9, 11, 14], "limit": [6, 9, 11, 14], "line": [0, 1, 2, 9, 11, 14], "linearms": 9, "link": [11, 14], "list": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "liter": 11, "lkove": 11, "ll": 11, "llama3": 11, "llm": [11, 14], "llm\u6ca1\u6709\u56de\u5e94\u95ee\u9898\u800c\u662f\u63d0\u5230\u65e0\u5173\u5185\u5bb9": 11, "load": [0, 1, 11, 14, 15, 16], "load_audio": [0, 14], "load_ckpt": [0, 14], "load_data_with_context": [0, 14], "load_dataset": [0, 4], "load_formatt": [0, 4], "load_func": 14, "load_imag": [0, 14], "load_image_byt": [0, 14], "load_images_byt": [0, 14], "load_op": [0, 5], "load_ops_with_stats_meta": [0, 2], "load_video": [0, 14], "load_words_asset": [0, 14], "loaded_audio": [0, 14], "loaded_data_kei": 14, "loaded_imag": [0, 14], "loaded_video": [0, 14], "local": [4, 5, 14], "local_nam": 14, "localformatt": [0, 4], "localhost": 8, "locat": [9, 11, 14], "lock": [11, 14], "lock_fil": 14, "log": [2, 14], "log_level": 14, "logfile_path": 14, "logger": 14, "logger_util": [0, 16], "logo": 9, "loguru": 14, "long": 11, "longer": [9, 14], "look": 11, "lot": 7, "love": 11, "low": 9, "lower": [7, 8, 9, 11, 12], "lower_cas": 7, "lower_percentil": 12, "lower_rank": 12, "lowercas": [7, 8, 11], "lsh": 8, "lua": 4, "luma_onli": 11, "lz4": 14, "lz4compressor": [0, 14], "m": [4, 11], "machin": [3, 11], "macro": 11, "magnitud": 9, "mai": [4, 9, 11, 14], "main": [9, 11], "main_ent": [0, 11, 14], "mainland": 11, "mainli": 14, "make": [11, 14], "makefil": 4, "manag": [11, 14], "mani": 11, "manner": 14, "map": [4, 5, 6, 11, 14], "mapper": [0, 5, 15], "mark": 11, "markdown": 4, "match": [8, 9, 11], "matter": 1, "max": [3, 4, 6, 8, 9, 11, 14], "max_area_ratio": 9, "max_col": 11, "max_dur": 9, "max_face_count": 9, "max_glean": 11, "max_height": [9, 11], "max_len": [9, 11], "max_length": 14, "max_line_length": [0, 14], "max_num": [9, 11], "max_pending_edge_buffer_task": 8, "max_pending_filter_task": 8, "max_ppl": 9, "max_ratio": [9, 11], "max_recal": 9, "max_round": 11, "max_sampl": 4, "max_scor": 9, "max_siz": 9, "max_snr": 9, "max_token": 11, "max_token_num": [6, 14], "max_valu": 9, "max_width": [9, 11], "maximum": [9, 11, 14], "maximum_line_length_filt": [0, 5, 15], "maximumlinelengthfilt": [5, 9], "maxsiz": 9, "mayb": 14, "mb": [3, 9], "md": [4, 14], "md5": 8, "md5_valu": 8, "mdict": 3, "mean": [1, 11, 14], "measur": [0, 11, 15, 16], "meet": [9, 11], "mem": 3, "mem_requir": 14, "member": 11, "memori": 14, "merg": [2, 4, 5, 6, 7, 8, 9], "merge_batch_s": 8, "merge_config": [0, 2], "merge_on_whitespace_tab_newlin": [5, 7], "merge_op_batch": [5, 8], "messag": [6, 11, 14], "meta": [0, 2, 4, 6, 9, 10, 11, 14], "meta_cnt": 6, "meta_map": [5, 6], "meta_nam": [0, 14], "meta_tag_kei": 6, "meta_tags_aggreg": [0, 5], "metadata": [8, 11, 12], "metakei": [0, 14], "metatagsaggreg": [5, 6], "method": [1, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "method_nam": 8, "methodnam": 14, "metric": [3, 5, 8, 9], "middl": [9, 11, 14], "might": [9, 11, 14], "min": [3, 8, 9, 11], "min_action_num": 9, "min_area_ratio": 9, "min_col": 11, "min_content_v": 11, "min_delta_hsv": 11, "min_dependency_num": 9, "min_dur": 9, "min_face_count": 9, "min_frame_threshold": 11, "min_height": [9, 11], "min_last_split_dur": 11, "min_len": [9, 11], "min_num": 9, "min_ratio": [9, 11], "min_recal": 9, "min_repeat_sentence_length": 11, "min_scene_len": 11, "min_scor": 9, "min_siz": 9, "min_snr": 9, "min_valu": 9, "min_width": [9, 11], "minhash": [0, 8, 14], "minhashlsh": 8, "mini_action_num": 9, "mini_dependency_num": 9, "minim": 8, "minimum": [9, 11], "miss": 11, "mission": 11, "mit": 11, "mix": [4, 11], "mixtur": 4, "mixture_formatt": [0, 15, 16], "mixtureformatt": [0, 4], "mm": 14, "mm_util": [0, 16], "mnb": 11, "modal": 15, "mode": [9, 11, 14], "model": [1, 6, 7, 8, 9, 11, 14, 15], "model_func": 7, "model_kei": 14, "model_kwarg": 14, "model_nam": 14, "model_param": [6, 11, 14], "model_path": 14, "model_typ": 14, "model_util": [0, 16], "modif": 4, "modifi": 4, "modul": [15, 16], "module_cl": 14, "module_kei": 14, "module_nam": 14, "modulenam": 14, "moduletyp": 14, "moment": 11, "monitor": [0, 5, 15, 16], "monitor_all_resourc": [0, 3], "monitor_current_resourc": [0, 3], "monitor_func": [0, 3], "more": [9, 11, 14, 15], "most": 11, "most_relavant_ent": [0, 6, 14], "most_relavant_entities_aggreg": [0, 5], "mostrelavantentitiesaggreg": [5, 6], "motion": 9, "mrm8488": 11, "mt": 11, "multi": [9, 11, 12, 14, 15], "multifil": 2, "multilin": 11, "multimod": 14, "multimodal_data_output_dir": [0, 14], "multipl": [2, 4, 7, 8, 9, 11, 14], "must": [4, 5, 6, 9, 11, 14], "mutual": 11, "n": [6, 7, 9, 11], "n1": 11, "n2": 11, "n3": 11, "n4": 11, "n_compon": 9, "naive_group": [0, 5], "naive_reverse_group": [0, 5], "naivegroup": [5, 10], "naivereversegroup": [5, 10], "nalex": 11, "name": [0, 1, 2, 4, 5, 6, 8, 9, 11, 14], "name_pattern": 14, "namespac": 2, "namespace_to_arg_list": [0, 2], "narrow": 11, "natur": 11, "nb": 11, "nearbi": 11, "necessari": [11, 14], "need": [1, 5, 7, 9, 11, 12, 14], "neg": [8, 11], "nentity_typ": 11, "nest": [6, 10, 14], "nested_access": [0, 14], "nested_aggreg": [0, 5], "nestedaggreg": [5, 6], "neutral": 11, "new": [4, 11, 14], "new_cfg": 2, "new_ds_cache_path": 2, "new_lin": 7, "new_text": 14, "nexampl": 11, "nfc": 11, "nfd": 11, "nfkc": 11, "nfkd": 11, "nfor": 11, "nformat": 11, "ngiven": 11, "nicknam": [0, 11, 14], "nickname_kei": 11, "nit": 11, "nllm": 11, "nlp": [1, 11], "nlpaug": 11, "nlpaug_en_mapp": [0, 5, 15], "nlpaugenmapp": [5, 11], "nlpcda": 11, "nlpcda_zh_mapp": [0, 5, 15], "nlpcdazhmapp": [5, 11], "nltk": 14, "nm": 9, "nmf": 9, "nmf_iter": 9, "nmf_iter_num": 9, "nod": 11, "node": 3, "nois": 11, "non": [7, 8, 11], "none": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "nonetyp": [8, 11, 12], "noqa": [1, 9], "normal": [9, 11, 14], "note": 11, "notic": 11, "noun": 1, "noutput": 11, "now": [1, 3, 7, 11], "nsfw": 9, "nsfw_image_detect": 9, "ntext": 11, "nthe": 11, "ntheir": 11, "nthen": 11, "ntogeth": 11, "null_valu": [0, 4], "num": [6, 11, 14], "num_act": [0, 14], "num_band": 8, "num_block": 8, "num_dependency_edg": [0, 14], "num_edge_buffer_task_return": 8, "num_filter_task_return": 8, "num_inference_step": 11, "num_perm": 8, "num_permut": 8, "num_proc": [1, 4, 14], "num_rows_per_band": 8, "num_token": [0, 14], "num_word": [0, 14], "number": [1, 4, 5, 6, 8, 9, 11, 12, 14], "numer": [9, 11, 14], "numpi": 1, "nwhile": 11, "n\u4e0d\u7518\u5fc3\u7684\u767d\u9aa8\u7cbe\u7b2c\u4e09\u6b21\u5316\u4f5c\u8001\u516c\u516c\u6765\u8bf1\u9a97": 6, "n\u4e0e": 6, "n\u4eba\u72691": 6, "n\u4ed6\u4eec\u4e0d\u518d\u662f\u5355\u7eaf\u7684\u6267\u884c\u8005": 11, "n\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "n\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "n\u4f18\u5316\u540e\u7684\u95ee\u9898": 11, "n\u4f60\u5bf9\u5404\u4e2a": 6, "n\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "n\u5206\u6790\u63a8\u7406": 11, "n\u53f7\u79f0\u9f50\u5929\u5927\u5723": 6, "n\u5408\u5e76\u540e\u7684\u6807\u7b7e\u5e94\u9650\u5b9a\u5728": 6, "n\u5510\u50e7\u5e08\u5f92\u56db\u4eba\u884c\u81f3\u767d\u864e\u5cad": 6, "n\u5510\u50e7\u5e08\u5f92\u5728\u767d\u864e\u5cad\u4e09\u9047\u767d\u9aa8\u7cbe\u53d8\u5316\u8bf1\u60d1": 6, "n\u5982\u4e0b\u662f\u4e00\u6761\u793a\u4f8b\u6570\u636e": 11, "n\u5996\u602a\u518d\u53d8\u8001\u5987\u5bfb\u5973": 6, "n\u60c5\u611f\u5206\u6790": 11, "n\u60c5\u611f\u7c7b\u522b": 11, "n\u60c5\u7eea\u503c": 11, "n\u60c5\u7eea\u5206\u6790": 11, "n\u610f\u56fe\u5206\u6790": 11, "n\u610f\u56fe\u7c7b\u522b": 11, "n\u6240\u4ee5": 11, "n\u6309\u7167\u4ee5\u4e0b\u683c\u5f0f\u8f93\u51fa": 11, "n\u63cf\u8ff0\u4e86\u4e66\u4e2d\u7684\u4e24\u4e2a\u5973\u6027\u89d2\u8272\u4e4b\u95f4\u56f4\u7ed5\u6743\u529b\u5c55\u5f00\u7684\u7ade\u4e89": 11, "n\u6587\u6863\u603b\u7ed3": 6, "n\u6587\u6863\u788e\u7247": 6, "n\u6700\u7ec8": 6, "n\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "n\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "n\u751f\u6210\u7684\u65b0\u56de\u7b54": 11, "n\u751f\u6210\u8be5\u56de\u7b54\u7684\u539f\u56e0": 11, "n\u7528\u6237": 11, "n\u767d\u9aa8\u7cbe\u9996\u6b21\u53d8\u8eab\u5c11\u5973\u9001\u658b": 6, "n\u8981\u6c42": [6, 11], "n\u8bdd\u9898\u5206\u6790": 11, "n\u8bdd\u9898\u7c7b\u522b": 11, "n\u968f\u7740\u4e0e\u534e\u76db\u987f\u7684\u901a\u8baf\u5728\u80cc\u666f\u4e2d\u55e1\u55e1\u4f5c\u54cd": 11, "n\u968f\u7740\u4e0e\u661f\u8fb0\u7684\u8054\u7cfb\u53d8\u5f97\u66f4\u52a0\u7262\u56fa": 11, "o": 14, "object": [1, 2, 3, 4, 5, 7, 9, 14], "object_ref": 8, "objet": 9, "observ": 11, "obtain": 7, "ocr": [9, 11], "ocr_error_char": 11, "oe": 11, "off": 14, "offer": 11, "offerd": 11, "offici": 9, "omit": 9, "onc": 14, "one": [1, 2, 6, 7, 8, 9, 10, 11, 14], "onli": [1, 3, 8, 9, 11, 14], "onlin": 14, "op": [0, 2, 3, 14, 15, 16], "op_cfg": 14, "op_class": 2, "op_fus": [0, 15, 16], "op_kwarg": 14, "op_list": 2, "op_nam": [2, 14], "op_name_class": 2, "open": [5, 8, 11], "openai": [9, 14], "openai_base_url": 14, "opencv": [9, 11], "opened_aug_method": 11, "oper": [3, 5, 8, 9, 14], "opt": 11, "optic": 9, "optim": [8, 11], "optimal_param": [5, 8], "optimize_qa_mapp": [0, 5, 15], "optimize_query_mapp": [0, 5, 15], "optimize_response_mapp": [0, 5, 15], "optimizeqamapp": [5, 11], "optimizequerymapp": [5, 11], "optimizeresponsemapp": [5, 11], "optimum": 14, "option": [1, 4, 11, 14], "opu": 11, "order": [6, 11, 12], "org": [1, 9, 11], "organ": 11, "ori_cfg": 2, "ori_config": 2, "ori_ratio": 11, "origin": [2, 4, 5, 9, 11, 14], "original_filepath": 14, "original_filter_group": 5, "original_process_list": 14, "original_s": 14, "original_str": 14, "other": [3, 9, 11, 14], "otherwis": [11, 14], "our": 11, "out": [4, 9], "output": [5, 6, 11, 14], "output_audio": 14, "output_kei": [6, 11], "output_path": [1, 14], "output_pattern": [6, 11], "output_pattern_templ": [6, 11], "output_video": 14, "ov4": 11, "over": [1, 11], "overal": 1, "overall_analysi": [0, 15, 16], "overall_result": 1, "overallanalysi": [0, 1], "overarch": 11, "overlap": [9, 11, 14], "overlap_len": 11, "overrid": 14, "overrul": 9, "overwrit": [2, 11], "overwrite_output": 11, "ovl": 11, "owl": 9, "owlvit": 9, "own": 11, "p": [1, 11], "p1": 9, "p2": 9, "p3": 9, "packag": [15, 16], "page": 15, "pai": 11, "pair": [2, 5, 8, 9, 11], "pair_preference_mapp": [0, 5, 15], "pairpreferencemapp": [5, 11], "palpabl": 11, "panda": 1, "paper": 9, "parallel": 8, "param": [1, 2, 4, 6, 7, 8, 11, 14], "param_dict": 5, "paramet": [1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "parent": 11, "parquet": 4, "parquet_formatt": [0, 15, 16], "parquetformatt": [0, 4], "pars": [2, 6, 11, 14], "parse_output": [5, 6, 11], "parse_string_to_roi": [0, 14], "parser": 2, "parser_mod": 2, "part": [6, 11, 14], "pass": [6, 11, 14], "patam": 14, "patch32": 9, "path": [1, 2, 4, 6, 8, 9, 10, 11, 14], "pathlik": 14, "pattern": [6, 8, 11, 14], "paus": 11, "pdf": [4, 9], "pend": 8, "peopl": 9, "per": [8, 11], "percentil": [1, 12], "percept": 11, "perform": 8, "perl": 4, "permut": 8, "perplex": [0, 9, 14], "perplexity_filt": [0, 5, 15], "perplexityfilt": [5, 9], "person": 11, "perspect": 11, "phash": 8, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "phrase": 9, "phrase_grounding_recal": [0, 14], "phrase_grounding_recall_filt": [0, 5, 15], "phrasegroundingrecallfilt": [5, 9], "pickl": 14, "pil_imag": 14, "pil_to_opencv": [0, 14], "pip": 14, "pipe_task": 14, "pipelin": 14, "pixel": [11, 14], "pixel_divers": 11, "pixel_valu": 11, "pl": 4, "placehold": [11, 14], "plai": 11, "pleas": [8, 11], "plot": 1, "pm": 4, "pod": 4, "point": 11, "portrai": 11, "posit": [8, 9, 11], "posix": 2, "post": 9, "postproc_func": 1, "postproc_kwarg": 1, "potenti": 11, "power": 11, "practic": 15, "pre": 11, "precomput": 1, "predict": [9, 11], "predictor": 9, "prefer": 11, "prefix": [2, 14], "prepar": 14, "prepare_api_model": [0, 14], "prepare_convert": [5, 11], "prepare_diffusion_model": [0, 14], "prepare_fasttext_model": [0, 14], "prepare_huggingface_model": [0, 14], "prepare_kenlm_model": [0, 14], "prepare_model": [0, 14], "prepare_nltk_model": [0, 14], "prepare_opencv_classifi": [0, 14], "prepare_recognizeanything_model": [0, 14], "prepare_sentencepiece_for_lang": [0, 14], "prepare_sentencepiece_model": [0, 14], "prepare_side_config": [0, 2], "prepare_simple_aesthetics_model": [0, 14], "prepare_spacy_model": [0, 14], "prepare_video_blip_model": [0, 14], "prepare_vllm_model": [0, 14], "present": 11, "pretrained_model_name_or_path": 14, "prev_d": 14, "prev_fram": 9, "preview": 11, "previou": 14, "print": 14, "prob": 8, "prob_threshold": 9, "probabl": [8, 9, 11], "probe": [3, 5], "probe_r": 5, "process": [0, 1, 3, 4, 5, 7, 8, 9, 10, 11, 12, 14, 15], "process_batch": [0, 5, 9, 11], "process_each_fram": [0, 14], "process_list": 5, "process_singl": [0, 5, 6, 8, 9, 11], "process_util": [0, 16], "processor": 14, "processor_config": 14, "produc": 11, "progress": 11, "project": 9, "prompt": [6, 11], "prompt_kei": 11, "prompt_templ": 11, "properti": [4, 14], "provid": [4, 8, 11, 14], "proxi": 14, "ps1": 4, "psd1": 4, "psm1": 4, "pth": 14, "pull": 14, "punctuat": [7, 8, 11], "punctuation_normalization_mapp": [0, 5, 15], "punctuationnormalizationmapp": [5, 11], "punkt": 14, "put": 11, "py": 4, "pyav": 14, "pycocotool": 14, "pypi": 9, "pythia": 9, "python": [3, 11, 14], "python_file_mapp": [0, 5, 15], "python_lambda_mapp": [0, 5, 15], "pythonfilemapp": [5, 11], "pythonlambdamapp": [5, 11], "python\u673a\u5668\u5b66\u4e60\u5b9e\u8df5": 11, "pytorch": 9, "q": 1, "qa": 11, "qa_exampl": 11, "qa_pair": 11, "qa_pair_templ": 11, "qualiti": 11, "quantil": 1, "queri": [5, 6, 11], "query_attribut": 11, "query_cuda_info": [0, 14], "query_ent": 11, "query_entity_typ": 6, "query_intent_detection_mapp": [0, 5, 15], "query_intent_label": [0, 11, 14], "query_intent_label_scor": [11, 14], "query_intent_scor": [0, 14], "query_kei": [5, 11, 14], "query_mem_info": [0, 14], "query_most_relavant_ent": [5, 6], "query_sentiment_detection_mapp": [0, 5, 15], "query_sentiment_label": [0, 11, 14], "query_sentiment_label_scor": [11, 14], "query_sentiment_scor": [0, 14], "query_templ": 11, "query_topic_detection_mapp": [0, 5, 15], "query_topic_label": [0, 11, 14], "query_topic_label_scor": [11, 14], "query_topic_scor": [0, 14], "queryintentdetectionmapp": [5, 11], "querysentimentdetectionmapp": [5, 11], "querytopicdetectionmapp": [5, 11], "question": 11, "quieter": 11, "qwen": 11, "qwen1_5": 11, "qwen2": 11, "r": [4, 8, 14], "radiu": 11, "raft": 9, "rai": [4, 8, 11, 14], "rais": 14, "ram": 9, "ram_plus_swin_large_14m": 14, "ram_tag_list": 9, "random": [4, 11, 12], "random_ani": 11, "random_sampl": [0, 4], "random_selector": [0, 5, 15], "randomli": [4, 11], "randomselector": [5, 12], "rang": [3, 9, 11, 12, 14], "range_specified_field_selector": [0, 5, 15], "rangespecifiedfieldselector": [5, 12], "rank": [5, 6, 9, 11, 12, 14], "rate": 9, "rather": 11, "ratio": [3, 4, 7, 9, 11, 12, 14], "raw": 11, "raw_output": 11, "ray_actor": 8, "ray_basic_dedupl": [0, 5, 15], "ray_bts_minhash_dedupl": [0, 5, 15], "ray_data": [0, 15, 16], "ray_document_dedupl": [0, 5, 15], "ray_executor": [0, 15, 16], "ray_image_dedupl": [0, 5, 15], "ray_video_dedupl": [0, 5, 15], "raybasicdedupl": [5, 8], "raybtsminhashdedupl": [5, 8], "raydocumentdedupl": [5, 8], "rayemptyformatt": [0, 4, 11], "rayimagededupl": [5, 8], "rayvideodedupl": [5, 8], "rb": 4, "re": 14, "read": [4, 14], "readi": 11, "real": 11, "reason": [11, 14], "reason_kei": 11, "rebellion": 11, "recal": 9, "recogn": [9, 14], "recognizeanyth": 14, "recommend": [8, 11], "record": [0, 11, 14], "record_delimit": 11, "recurr": 9, "recursive_summari": [5, 6], "recursively_chunk": [5, 11], "red": 1, "redi": 8, "redirect": 14, "redirect_sys_output": [0, 14], "redis_address": 8, "redisbackend": [5, 8], "reduc": [5, 9, 11], "reduce_mod": 9, "ref": 1, "refer": [1, 9, 11], "reference_templ": 11, "refin": 7, "refine_single_column": [0, 1], "refined_word": [0, 14], "regard": [8, 11, 14], "region": [11, 14], "regist": 14, "register_modul": [0, 14], "registri": [0, 16], "regular": 11, "reject": 11, "rejected_kei": 11, "rejected_respons": 11, "rel": [9, 14], "relat": [0, 1, 3, 6, 9, 11, 14], "relatedttestmeasur": [0, 1], "relation_descript": [0, 14], "relation_identity_mapp": [0, 5, 15], "relation_kei": 11, "relation_keyword": [0, 14], "relation_pattern": 11, "relation_source_ent": 14, "relation_strength": [0, 14], "relation_target_ent": 14, "relationidentitymapp": [5, 11], "relationship": 11, "relationship_descript": 11, "relationship_keyword": 11, "relationship_strength": 11, "relav": 6, "relev": [11, 14], "relevant_char_kei": 11, "relevant_charact": [0, 11, 14], "reload": 14, "reluct": 11, "remot": 11, "remoteformatt": [0, 4], "remov": [5, 7, 9, 11, 14], "remove_bibliography_mapp": [0, 5, 15], "remove_comments_mapp": [0, 5, 15], "remove_extra_paramet": [0, 5], "remove_header_mapp": [0, 5, 15], "remove_long_words_mapp": [0, 5, 15], "remove_non_chinese_character_mapp": [0, 5, 15], "remove_non_special_token": [0, 14], "remove_punctu": [5, 9], "remove_repeat_sentences_mapp": [0, 5, 15], "remove_special_token": [0, 14], "remove_specific_chars_mapp": [0, 5, 15], "remove_table_text_mapp": [0, 5, 15], "remove_words_with_incorrect_substrings_mapp": [0, 5, 15], "removebibliographymapp": [5, 11], "removecommentsmapp": [5, 11], "removeheadermapp": [5, 11], "removelongwordsmapp": [5, 11], "removenonchinesecharacterlmapp": [5, 11], "removerepeatsentencesmapp": [5, 11], "removespecificcharsmapp": [5, 11], "removetabletextmapp": [5, 11], "removewordswithincorrectsubstringsmapp": [5, 11], "render": 14, "rep_len": 9, "repeat": 11, "repetit": 9, "repl": 11, "replac": [11, 14], "replace_content_mapp": [0, 5, 15], "replace_equivalent_num": 11, "replace_func": [5, 11], "replace_homophone_char": 11, "replace_similar_word": 11, "replacecontentmapp": [5, 11], "repo": 14, "repons": 11, "repositori": 4, "repres": 14, "represent": 11, "request": 11, "requir": [8, 9, 11, 12, 14], "require_f_path": 14, "rerun": 14, "rescal": [5, 9, 11], "resiz": [9, 11, 14], "resolut": [9, 11], "reson": 11, "resourc": 3, "resource_analysi": 3, "resource_monitor": [0, 3], "resource_util": [0, 16], "resource_util_dict": 3, "resource_util_list": 3, "respect": [1, 8, 11, 14], "respons": [5, 6, 11, 14], "response_kei": [5, 11], "response_path": [6, 11, 14], "response_templ": 11, "result": [1, 3, 9], "retain": [9, 11], "retri": [6, 11], "return": [1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "return_model": 14, "return_pip": 14, "return_processor": 14, "return_sampl": 5, "rever": 11, "revers": [7, 12, 14], "revis": 11, "rewrit": 11, "reykjavik": 11, "right": [9, 11, 14], "rivera": 11, "roberta": 11, "roi": [11, 14], "roi_kei": 11, "roi_str": [11, 14], "roi_typ": [11, 14], "role": 11, "role_rel": [0, 11, 14], "root": 1, "round": 11, "row": [1, 8], "rst": 4, "rule": [11, 12], "run": [0, 5, 8, 9, 11, 14], "run_ner": [5, 9], "run_single_op": [0, 14], "runner": 9, "runtest": 14, "runtime_np": [0, 5], "s2hk": 11, "s2t": 11, "s2tw": 11, "s2twp": 11, "sac": 9, "safe": 14, "said": 11, "salesforc": [9, 11], "sam": 11, "same": [1, 6, 11, 14], "sampl": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14], "sample_interv": 3, "sample_numb": 4, "sampled_fram": [0, 14], "sampling_fp": 9, "sampling_param": [6, 11], "sampling_r": 14, "sapci": 14, "save": [1, 2, 4, 11, 14], "save_ckpt": [0, 14], "save_dir": 14, "save_path": 1, "save_stats_in_one_fil": 1, "scala": 4, "scale": 11, "scene": 11, "scene_counts_it": 11, "scenedetect": 11, "scipi": 1, "score": [9, 11], "score_kei": 11, "score_threshold": 9, "scratch": 14, "search": [11, 15], "second": [1, 9, 11, 14], "see": [14, 15], "seed": [4, 11], "seed_fil": 11, "seem": 11, "segment": [11, 14], "select": [4, 5, 9, 11, 12], "select_num": 12, "select_ratio": 12, "selector": [0, 5, 15], "self": [5, 10], "semant": 11, "sens": 11, "sentenc": [1, 7, 11], "sentence_split_mapp": [0, 5, 15], "sentencepiec": [8, 14], "sentencesplitmapp": [5, 11], "sentiment": 11, "sentiment_candid": 11, "separ": [7, 9, 11, 12, 14], "separate_signal_nois": [5, 9], "sequenc": [9, 11], "sequenti": 11, "serial": 14, "server": [8, 14], "set": [2, 7, 9, 11, 12, 14], "set_clear_model_flag": [0, 14], "setup": [2, 14], "setup_logg": [0, 14], "setup_model": [5, 9], "setup_mp": [0, 14], "setupclass": [0, 14], "sever": [1, 3, 11, 14], "sh": 4, "sha1_hash32": [5, 8], "shannon": 1, "shape": 9, "share": 11, "shift": [9, 11], "shingl": 8, "shinjitai": 11, "short": 14, "shorter": [9, 11], "should": [8, 9, 11, 14], "should_keep_long_word": [5, 11], "should_keep_word_with_incorrect_substr": [5, 11], "show": [1, 11], "show_num": [5, 8], "show_percentil": 1, "show_progress": 11, "shunk031": 9, "signific": 11, "significantli": 11, "silenc": 11, "simhash": [0, 8, 14], "similar": [6, 8, 9, 11, 14], "similar_on": 11, "similar_one_simhash": 11, "similarity_threshold": 11, "simpl": [9, 11, 14], "simpli": 11, "simplifi": 11, "simul": 11, "sinc": [4, 7], "singl": [1, 3, 5, 11, 14], "size": [1, 5, 7, 8, 9, 11, 14], "size_to_byt": [0, 14], "skip": [2, 14], "skip_check": 2, "skip_existing_cont": 14, "skip_export": 1, "skip_non": 2, "slice": [11, 14], "smali": 4, "small": [9, 11], "smaller": [9, 11, 12], "smallest": 12, "snr": 9, "so": [8, 9, 11, 14], "soften": 11, "some": [2, 5, 6, 11, 14], "someth": 11, "sometim": 14, "sort": [2, 6, 12], "sort_op_by_types_and_nam": [0, 2], "sourc": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "source_ent": [0, 11, 14], "source_fil": [0, 14], "sp": 14, "space": [7, 8], "spaci": 14, "special": [1, 7, 9, 11], "special_char_ratio": [0, 14], "special_charact": [0, 5, 15], "special_characters_filt": [0, 5, 15], "specialcharactersfilt": [5, 9], "specialtoken": [0, 14], "specif": [1, 5, 8, 9, 11, 14], "specifi": [1, 3, 4, 7, 9, 11, 12, 14], "specified_field_filt": [0, 5, 15], "specified_numeric_field_filt": [0, 5, 15], "specifiedfieldfilt": [5, 9], "specifiednumericfield": 9, "specifiednumericfieldfilt": [5, 9], "spectrogram": 11, "speed": [3, 5], "spell": 11, "spelling_error_word": 11, "split": [2, 7, 10, 11, 14], "split_dur": 11, "split_on_newline_tab_whitespac": [5, 7], "split_on_whitespac": [5, 7], "split_pattern": 11, "split_random_word": 11, "split_sent": [5, 11], "split_text_by_punctu": [5, 7], "split_videos_by_dur": [5, 11], "splite": 7, "sql": 4, "ss": 14, "stabl": 11, "stand": 14, "standalon": 14, "standard": 11, "start": [11, 14], "start_second": 14, "stat": [0, 1, 5, 8, 9, 14], "state": [11, 14], "static": [1, 3, 14], "stats_kei": 14, "stats_to_hist": [0, 1], "stats_to_numb": [0, 14], "statskei": [0, 14], "statskeysconst": [0, 14], "statskeysmeta": [0, 14], "std": 1, "stderr": [11, 14], "stdout": 14, "step": 11, "still": 11, "stoical": 11, "stood": 11, "stop": [11, 14], "stopword": [7, 9], "stopwords_dir": 9, "stopwords_filt": [0, 5, 15], "stopwords_ratio": [0, 14], "stopwordsfilt": [5, 9], "store": [1, 4, 5, 8, 9, 11, 14], "store_dir": 3, "stori": 11, "str": [2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "str_list": 14, "stranger": 11, "strategi": [5, 9, 11], "stream": [11, 14], "stream_index": 14, "streamtologuru": [0, 14], "strength": 11, "string": [1, 2, 8, 9, 11, 14], "strip": [5, 7], "strip_char": 7, "strip_charact": 7, "structur": [3, 11, 14], "student": 1, "studi": 11, "style": 2, "sub": [1, 2, 6, 7, 8, 11, 14], "sub_doc": 6, "sub_doc_templ": 6, "submodul": [0, 15, 16], "subpackag": [15, 16], "subset": 4, "substr": 11, "success": 14, "successfulli": 14, "suffix": [0, 4, 9, 14], "suffix_filt": [0, 5, 15], "suffixfilt": [5, 9], "suitabl": 11, "sum": 8, "summar": 11, "summari": 11, "summary_kei": 11, "super": 11, "superset": 2, "support": [1, 3, 9, 10, 11, 14], "support_text": [0, 11, 14], "support_text_kei": 11, "suppos": [6, 11], "sure": 11, "survei": 11, "swap": 11, "swap_random_char": 11, "swap_random_word": 11, "sy": 9, "syllabl": 7, "syntax": 14, "system": [6, 11, 14], "system_prompt": [6, 11], "system_prompt_templ": [6, 11], "t": [1, 4, 7, 8, 14], "t2": 11, "t2hk": 11, "t2jp": 11, "t2tw": 11, "tab": 7, "tabl": [8, 11], "tag": [1, 6, 7, 9, 11, 12, 14], "tag_field_nam": [9, 11], "tag_str": 6, "tag_templ": 6, "tags_specified_field_selector": [0, 5, 15], "tagsspecifiedfieldselector": [5, 12], "taiwan": 11, "taiwanes": 11, "take": 9, "taken": [8, 11], "talk": 11, "tap": 6, "tar": 14, "tar_whoop": 14, "target": [3, 4, 6, 9, 11, 12, 14], "target_ent": [0, 11, 14], "target_s": 14, "target_tag": [6, 12], "target_tag_str": 6, "target_tag_templ": 6, "target_valu": 9, "task": [2, 8, 11, 14], "taylor": 11, "team": [11, 14], "teardown": [0, 14], "teardownclass": [0, 14], "tech": 11, "technolog": 11, "technologi": 11, "temp_dir": 2, "temperatur": [6, 11], "tempfil": 2, "templat": [6, 11], "temporari": 8, "temporarili": [5, 8, 9, 14], "tensor": 1, "term": 9, "test": [1, 14], "test_tag": [0, 14], "testcas": 14, "tex": [4, 11], "text": [1, 4, 5, 6, 7, 8, 9, 11, 14], "text2imag": 14, "text_action_filt": [0, 5, 15], "text_chunk_mapp": [0, 5, 15], "text_entity_dependency_filt": [0, 5, 15], "text_formatt": [0, 15, 16], "text_formatter2": 14, "text_kei": [1, 4, 5, 10], "text_len": [0, 10, 14], "text_length_filt": [0, 5, 15], "text_list": 8, "textactionfilt": [5, 9], "textchunkmapp": [5, 11], "textentitydependencyfilt": [5, 9], "textformatt": [0, 4, 14], "textformatter2": 14, "textlengthfilt": [5, 9], "texttokendistcollector": [0, 1], "tgt_path": 4, "than": [4, 7, 8, 9, 11, 12, 14], "thei": [8, 11, 14], "them": [2, 4, 6, 8, 9, 11, 14], "theme": 11, "thi": [1, 4, 5, 7, 8, 9, 11, 12, 14], "think": 11, "this_d": 14, "those": [3, 4, 9, 11], "thread": 14, "thread_loc": 14, "threshold": [8, 9, 11], "thresholddetector": 11, "through": [11, 14], "tiktoken": 11, "time": [3, 11, 14], "timecod": 14, "timecode_string_to_second": [0, 14], "timeout": 14, "timestamp": 3, "tmp_file_nam": 8, "to_dir": 14, "togeth": [2, 8, 11], "token": [1, 6, 7, 8, 9, 11, 14], "token_func": 7, "token_num": 14, "token_num_filt": [0, 5, 15], "tokenizer_model": 8, "tokennumfilt": [5, 9], "toler": 5, "too": 11, "tool": [0, 16], "top": [9, 11, 12, 14], "top_k_noun": 1, "top_k_verb": 1, "top_p": [6, 11], "top_ratio": 12, "topic": 11, "topic_candid": 11, "topk": 12, "topk_specified_field_selector": [0, 5, 15], "topkspecifiedfieldselector": [5, 12], "torch": 1, "torch_dtyp": 11, "torchvis": 9, "total": [1, 6, 9, 11, 14], "total_num": 1, "toward": 11, "trace": [5, 8], "tracer": [0, 5, 8, 15, 16], "track": 14, "trackingdescriptor": 14, "tradit": 11, "train": [11, 14], "transfer": 14, "transfer_filenam": [0, 14], "transform": [9, 11, 14], "transform_arg": 14, "translat": 11, "travers": 14, "tree": [1, 9], "tree_root": 1, "trepid": 11, "triangl": [1, 9], "triangle_area": [5, 9], "truce": 11, "true": [1, 2, 5, 7, 8, 9, 11, 12, 14], "trust": 11, "trust_remote_cod": [9, 11, 14], "try_num": [6, 11], "tsv": 4, "tsv_formatt": [0, 15, 16], "tsvformatt": [0, 4], "tsx": 4, "ttestresult": 1, "tupl": [1, 8, 9, 14], "tuple_delimit": 11, "turn": 14, "tw2": 11, "tw2sp": 11, "tw2t": 11, "two": [1, 8, 9, 11], "txt": [4, 9, 14], "type": [1, 2, 4, 6, 8, 11, 14], "typic": 14, "u": 11, "uers_prompt_kei": 11, "uid": [0, 14], "uid_list": 8, "ulaanbaatar": 11, "un": 9, "uncanni": 11, "unchang": [5, 14], "uncompress": 14, "undercurr": 11, "underli": 11, "understood": 11, "uneasi": 11, "unexpect": [11, 14], "unfold": 11, "unicod": 11, "unifi": [4, 14], "unified_format_dataset": 4, "uniform": [9, 11], "uniformli": [9, 11, 14], "unify_format": [0, 4], "union": [5, 7, 8], "union_find_parallel_num": 8, "union_threshold": 8, "unionfind": [5, 7], "uniqu": 14, "unittest_util": [0, 16], "unknown": 11, "unspoken": 11, "until": 14, "up": [11, 14], "updat": [0, 2, 14], "update_ds_cache_dir_and_related_var": [0, 2], "update_fingerprint": [0, 14], "update_op_attr": [0, 2], "update_op_process": [0, 2], "upper": 12, "upper_percentil": 12, "upper_rank": 12, "url": [6, 11, 14], "us": [1, 2, 3, 4, 5, 7, 8, 9, 11, 14, 15], "use_cuda": [0, 5, 14], "use_words_aug": [7, 9], "useless": 11, "user": 11, "user_prompt": 11, "user_prompt_kei": 11, "usual": 9, "util": [0, 3, 9, 16], "v1": 11, "v2": 9, "valid": [1, 14], "valu": [2, 5, 8, 9, 10, 11, 12, 14], "var": [5, 8, 9, 14], "variabl": [2, 14], "varianc": 14, "variant": 11, "variou": 14, "vb": 4, "verb": 1, "version": [11, 14], "vertic": [9, 11], "vertical_flip": [9, 11], "vid_cap_from_frm_arg": 11, "vid_cap_from_vid_arg": 11, "vid_tag_from_aud_arg": 11, "vid_tag_from_frm_arg": 11, "video": [0, 5, 8, 9, 11, 14], "video_aesthetic_scor": [0, 14], "video_aesthetics_filt": [0, 5, 15], "video_aspect_ratio": [0, 14], "video_aspect_ratio_filt": [0, 5, 15], "video_audio_tag": [0, 11, 14], "video_captioning_from_audio_mapp": [0, 5, 15], "video_captioning_from_frames_mapp": [0, 5, 15], "video_captioning_from_summarizer_mapp": [0, 5, 15], "video_captioning_from_video_mapp": [0, 5, 15], "video_dedupl": [0, 5, 15], "video_dur": [0, 14], "video_duration_filt": [0, 5, 15], "video_extract_frames_mapp": [0, 5, 15], "video_face_blur_mapp": [0, 5, 15], "video_ffmpeg_wrapped_mapp": [0, 5, 15], "video_fram": [0, 11, 14], "video_frame_tag": [0, 9, 11, 14], "video_frames_aesthetics_scor": [0, 14], "video_frames_text_similar": [0, 14], "video_frames_text_similarity_filt": [0, 5, 15], "video_height": [0, 14], "video_kei": [5, 11], "video_key_1": 11, "video_key_1_filenam": 11, "video_key_2": 11, "video_key_2_filenam": 11, "video_manag": 11, "video_motion_scor": [0, 14], "video_motion_score_filt": [0, 5, 15], "video_motion_score_raft_filt": [0, 5, 15], "video_nsfw_filt": [0, 5, 15], "video_nsfw_scor": [0, 14], "video_ocr_area_ratio": [0, 14], "video_ocr_area_ratio_filt": [0, 5, 15], "video_remove_watermark_mapp": [0, 5, 15], "video_resize_aspect_ratio_mapp": [0, 5, 15], "video_resize_resolution_mapp": [0, 5, 15], "video_resolution_filt": [0, 5, 15], "video_split_by_duration_mapp": [0, 5, 15], "video_split_by_key_frame_mapp": [0, 5, 15], "video_split_by_scene_mapp": [0, 5, 15], "video_stream_index": 14, "video_tagging_from_audio_mapp": [0, 5, 15], "video_tagging_from_frames_filt": [0, 5, 15], "video_tagging_from_frames_mapp": [0, 5, 15], "video_watermark_filt": [0, 5, 15], "video_watermark_prob": [0, 14], "video_width": [0, 14], "videoaestheticsfilt": [5, 9], "videoaspectratiofilt": [5, 9], "videocaptioningfromaudiomapp": [5, 11], "videocaptioningfromframesmapp": [5, 11], "videocaptioningfromsummarizermapp": [5, 11], "videocaptioningfromvideomapp": [5, 11], "videocaptur": [5, 9], "videodedupl": [5, 8], "videodurationfilt": [5, 9], "videoextractframesmapp": [5, 11], "videofaceblurmapp": [5, 11], "videoffmpegwrappedmapp": [5, 11], "videoframestextsimilarityfilt": [5, 9], "videohash": [0, 14], "videomotionscorefilt": [5, 9], "videomotionscoreraftfilt": [5, 9], "videonsfwfilt": [5, 9], "videoocrarearatiofilt": [5, 9], "videoremovewatermarkmapp": [5, 11], "videoresizeaspectratiomapp": [5, 11], "videoresizeresolutionmapp": [5, 11], "videoresolutionfilt": [5, 9], "videosplitbydurationmapp": [5, 11], "videosplitbykeyframemapp": [5, 11], "videosplitbyscenemapp": [5, 11], "videotaggingfromaudiomapp": [5, 11], "videotaggingfromframesfilt": [5, 9], "videotaggingfromframesmapp": [5, 11], "videowatermarkfilt": [5, 9], "vietnames": [7, 9], "vision": [9, 11], "visison": 11, "vit": 9, "vllm": 11, "voic": 11, "w": [6, 9, 11], "w1": 4, "w2": 4, "w3": 4, "wa": [11, 14], "wai": [7, 11], "wait": 8, "watch": 11, "watermark": [9, 11], "watermark_detector": 9, "we": [1, 3, 4, 8, 9, 11, 14, 15], "weight": [4, 8, 11], "well": 11, "were": 11, "what": [9, 11], "whatev": 11, "when": [1, 4, 5, 6, 8, 9, 11, 12, 14], "where": 11, "whether": [1, 2, 4, 5, 7, 8, 9, 11, 14], "which": [1, 2, 5, 8, 9, 11, 14], "which_entri": 2, "while": 9, "whitespac": [8, 11], "whitespace_charact": 11, "whitespace_normalization_mapp": [0, 5, 15], "whitespacenormalizationmapp": [5, 11], "who": 11, "whole": [1, 9, 11], "whose": [2, 9, 11, 14], "why": 11, "width": [9, 11, 14], "wight": [11, 14], "wiki": [1, 11], "wikipedia": [1, 11], "wills": 11, "window": [1, 8], "window_s": 8, "window_width": 11, "within": [9, 11, 12, 14], "without": [6, 7, 11], "won": [8, 14], "word": [0, 7, 9, 11, 14], "word_limit": 6, "word_rep_ratio": [0, 14], "word_repetition_filt": [0, 5, 15], "wordless": 11, "wordrepetitionfilt": [5, 9], "words_aug_group_s": [7, 9], "words_aug_join_char": [7, 9], "words_augment": [5, 7], "words_dir": 14, "words_num_filt": [0, 5, 15], "words_refin": [5, 7], "words_typ": 14, "wordsnumfilt": [5, 9], "work": [2, 5, 9, 11, 14], "work_dir": 5, "worker": [8, 14], "would": 11, "wrap": 14, "wrapper": 11, "write": [0, 11, 14], "written": 14, "www": 9, "x": [1, 7], "x1": [11, 14], "x2": [11, 14], "xinyu1205": 9, "xlabel": 1, "xml": [4, 9, 11], "xxx": 3, "xyz": 14, "xyz_process": 14, "y": [1, 7], "y1": [11, 14], "y2": [11, 14], "yaml": [2, 11], "ye": 11, "ylabel": 1, "ylabl": 1, "yml": 2, "you": 11, "your": 11, "youth": 11, "z": [6, 11], "zh": [7, 9, 11, 14], "zh_to_en_hf_model": 11, "zh_to_en_model_param": 11, "zh_to_hf_model": 11, "zsh": 4, "zst": 4, "zstd": 14, "zstdcompressor": [0, 14], "\u4e00\u573a\u8715\u53d8\u5df2\u7ecf\u5f00\u59cb": 11, "\u4e00\u672c\u5e38\u88ab\u63a8\u8350\u7684\u4e66\u662f": 11, "\u4e00\u79cd\u65b0\u7684\u51b3\u5fc3": 11, "\u4e00\u79cd\u662f\u7ed9\u5b9a\u5408\u5e76\u540e\u7684\u6807\u7b7e": 6, "\u4e00\u80a1\u4e0d\u7965\u7684\u6c14\u606f\u7b3c\u7f69\u7740\u4ed6\u4eec": 11, "\u4e00\u81f4": 11, "\u4e0b\u9762\u662f\u4e00\u4e2a\u4f8b\u5b50\u5e2e\u52a9\u7406\u89e3\u8fd9\u4e00\u8fc7\u7a0b": 11, "\u4e0b\u9762\u662f\u4e00\u4e2a\u6837\u4f8b": 11, "\u4e0d\u4e00\u5b9a\u8981\u5c40\u9650\u4e8e\u8f93\u5165": 11, "\u4e0d\u518d\u4ec5\u4ec5\u662f\u89c2\u5bdf\u548c\u62a5\u544a": 11, "\u4e0d\u635f\u5bb3\u5b50\u5b59\u540e\u4ee3\u6ee1\u8db3\u5176\u81ea\u8eab\u9700\u6c42\u7684\u80fd\u529b\u7684\u53d1\u5c55\u6a21\u5f0f": 11, "\u4e0d\u7528\u5305\u542b\u4e0e": 6, "\u4e0d\u7528\u8c22": 11, "\u4e0d\u80fd\u4e0e\u8f93\u5165\u7684": 11, "\u4e0d\u8981\u5305\u542b\u4e3b\u89c2\u770b\u6cd5": [6, 11], "\u4e0d\u8981\u641e\u53cd\u4e86": 11, "\u4e0d\u8981\u6dfb\u52a0\u6587\u672c\u4e2d\u6ca1\u6709\u7684\u60c5\u8282": 11, "\u4e0d\u8981\u7ee7\u7eed\u6784\u9020\u5bf9\u8bdd": 11, "\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u8f93\u51fa\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u9057\u6f0f\u60c5\u8282\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u4e0e": 6, "\u4e14\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4e14\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4e14\u9891\u6b21\u8f83\u4f4e": 6, "\u4e2d": 6, "\u4e3a\u540c\u4e00": 6, "\u4e3b\u8981\u5305\u62ec\u6cb3\u5317": 11, "\u4e4b\u524d": 11, "\u4e4b\u95f4\u7684\u5173\u7cfb": 11, "\u4e5f\u53ef\u4ee5\u662f\u591a\u8f6e": 11, "\u4e5f\u6df1\u523b\u53cd\u6620\u4e86\u4eba\u7269\u7684\u6027\u683c\u7279\u70b9\u548c\u547d\u8fd0\u8d70\u5411": 11, "\u4e66\u4e2d\u901a\u8fc7\u590d\u6742\u7684\u4eba\u7269\u5173\u7cfb\u5c55\u73b0\u4e86\u5c01\u5efa\u793e\u4f1a\u7684\u5404\u79cd\u77db\u76fe\u51b2\u7a81": 11, "\u4e8b\u5b9e\u6027": 11, "\u4eb2\u751f\u7236\u6bcd\u672a\u77e5": 6, "\u4eba\u5de5\u667a\u80fd": 6, "\u4eba\u5de5\u667a\u80fd\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u4eba\u7269": 11, "\u4eba\u72691": 11, "\u4eba\u72692": [6, 11], "\u4eba\u72693": [6, 11], "\u4eba\u7269\u8eab\u4efd": 11, "\u4ec0\u4e48\u5417": 11, "\u4eca\u5929\u6211\u4eec\u6765\u804a\u804a\u79e6\u59cb\u7687\u5427": 11, "\u4ece\u6587\u672c\u4e2d\u603b\u7ed3": 11, "\u4ece\u88ab\u52a8\u63a5\u53d7\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005": 11, "\u4ed6\u4eec\u5728\u63a5\u4e0b\u6765\u51e0\u4e2a\u5c0f\u65f6\u5185\u505a\u51fa\u7684\u51b3\u5b9a\u53ef\u80fd\u4f1a\u91cd\u65b0\u5b9a\u4e49\u4eba\u7c7b\u5728\u5b87\u5b99\u4e2d\u7684\u4f4d\u7f6e": 11, "\u4ed6\u4eec\u5df2\u6210\u4e3a\u67d0\u4e2a\u8d85\u8d8a\u661f\u8fb0\u4e0e\u6761\u7eb9\u7684\u9886\u57df\u7684\u4fe1\u606f\u5b88\u62a4\u8005": 11, "\u4ed6\u5728\u516c\u5143\u524d221\u5e74\u5efa\u7acb\u4e86\u79e6\u671d": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f55": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f551": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f552": 11, "\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "\u4ee5\u4e0b\u662f\u8fd9\u79cd\u60c5\u51b5\u7684\u4e00\u4e2a\u6837\u4f8b": 6, "\u4ee5\u4fbf\u6700\u5927\u9650\u5ea6\u5730\u53d1\u6325\u5176\u9632\u5fa1\u4f5c\u7528": 11, "\u4ee5\u5185\u7684\u6837\u4f8b\u5982\u4e0b": 6, "\u4ee5\u53ca\u5bf9\u539f\u6587\u67d0\u4e2a\u90e8\u5206\u7684\u7b80\u77ed\u63cf\u8ff0\u6216\u603b\u7ed3": 11, "\u4ee5\u53ca\u652f\u6301\u672c\u5730\u548c\u53ef\u6301\u7eed\u53d1\u5c55\u7684\u4f01\u4e1a\u7b49\u65b9\u5f0f\u6765\u8df5\u884c\u53ef\u6301\u7eed\u751f\u6d3b": 11, "\u4efb\u52a1": 11, "\u4efb\u52a1\u5206\u4e3a\u4e24\u79cd\u60c5\u51b5": 6, "\u4efb\u52a1\u6f14\u53d8": 11, "\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u4f46\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4f46\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4f46\u4ecd\u7136\u9700\u8981\u7b26\u5408\u4e8b\u5b9e": 11, "\u4f46\u5f88\u6709\u542f\u53d1\u6027": 11, "\u4f46\u662f\u597d\u50cf\u6ca1\u4ec0\u4e48\u6548\u679c": 11, "\u4f46\u662f\u9700\u8981\u4fdd\u6301\u683c\u5f0f\u76f8\u540c": 11, "\u4f60\u597d": 11, "\u4f60\u5c06\u626e\u6f14\u4e00\u4e2a\u6587\u672c\u6458\u5f55\u52a9\u624b\u7684\u89d2\u8272": 11, "\u4f60\u63d0\u5230\u652f\u6301\u672c\u5730\u4f01\u4e1a": 11, "\u4f60\u7684\u4e3b\u8981\u4efb\u52a1\u662f\u57fa\u4e8e\u7ed9\u5b9a\u7684\u6587\u7ae0": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u5c06\u4eba\u7269\u4e4b\u95f4\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u6839\u636e\u53c2\u8003\u4fe1\u606f\u4fee\u6539\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u4f60\u7684\u8fd4\u56de\u683c\u5f0f\u5982\u4e0b": 6, "\u4f60\u9700\u8981\u5c3d\u53ef\u80fd\u7cbe\u786e\u5730\u5339\u914d\u5230\u6700\u7b26\u5408\u603b\u7ed3\u5185\u5bb9\u7684\u90a3\u90e8\u5206\u5185\u5bb9": 11, "\u4f7f": 11, "\u4f7f\u4f9b\u5e94\u94fe\u66f4\u52a0\u73af\u4fdd": 11, "\u4f7f\u5176\u66f4\u52a0\u8be6\u7ec6": 11, "\u4f8b\u5982": 6, "\u4f9d\u65e7\u9003\u4e0d\u8fc7\u91d1\u775b\u706b\u773c": 6, "\u4fe1\u606f\u6280\u672f": 6, "\u4fe1\u606f\u6280\u672f\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u4fe1\u606f\u67e5\u627e": 11, "\u5065\u5eb7": 6, "\u5141\u8bb8\u8ba1\u7b97\u673a\u901a\u8fc7\u6570\u636e\u81ea\u52a8\u6539\u8fdb\u548c\u5b66\u4e60": 11, "\u5173\u4e8e": 11, "\u5173\u6ce8\u5783\u573e\u5206\u7c7b\u548c\u591a\u7528\u7535\u5b50\u8d26\u5355\u4e5f\u662f\u4e0d\u9519\u7684\u9009\u62e9": 11, "\u5173\u7cfb\u7528\u4e00\u4e2a\u6216\u591a\u4e2a\u8bcd\u8bed\u8868\u793a": 11, "\u5173\u8054\u4e0d\u5f3a": 6, "\u5173\u8054\u5ea6\u7684\u5206\u6790": 6, "\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "\u5176\u4ed6": [6, 11], "\u517b\u751f": 6, "\u517b\u751f\u5f52\u7c7b\u4e3a\u5065\u5eb7": 6, "\u5185\u8499\u53e4": 11, "\u518d\u6b21\u611f\u8c22\u4f60\u7684\u5e2e\u52a9": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u54ea\u91cc\u5462": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u96f7\u514b\u96c5\u672a\u514b": 11, "\u51b3\u7b56": 11, "\u51b3\u7b56\u5236\u5b9a": 11, "\u51c6\u786e": 11, "\u51c6\u786e\u5730\u8bc6\u522b\u5e76\u63d0\u53d6\u51fa\u4e0e\u8be5\u603b\u7ed3\u76f8\u5bf9\u5e94\u7684\u539f\u6587\u7247\u6bb5": 11, "\u51fa\u8eab\u80cc\u666f": 6, "\u5206\u6790": 6, "\u5206\u6790\u63a8\u7406": 11, "\u5217\u8868": 6, "\u5219\u4ee5\u4ed6\u4eec\u5927\u80c6\u7684\u65b0\u9891\u7387\u9707\u52a8": 11, "\u521a\u5f00\u59cb": 11, "\u5224\u65ad": 11, "\u533b\u7597": 6, "\u533b\u7597\u5f52\u7c7b\u4e3a\u5065\u5eb7": 6, "\u534e\u76db\u987f": 11, "\u534e\u76db\u987f\u662f\u6b63\u5728\u63a5\u6536\u901a\u8baf\u7684\u5730\u65b9": 11, "\u5386\u53f2": 11, "\u5386\u53f2llm": 11, "\u538b\u529b": 11, "\u539f\u56e0": 11, "\u539f\u6587": 11, "\u539f\u6587\u6458\u5f55": 11, "\u53c2\u8003\u4fe1\u606f": 11, "\u53c2\u8003\u5982\u4e0b\u6837\u4f8b": 6, "\u53c8\u88ab\u609f\u7a7a\u51fb\u6bd9": 6, "\u53e6\u4e00\u4e2a\u8eab\u4efd": 11, "\u53e6\u5916\u4e00\u79cd\u60c5\u51b5\u6ca1\u6709\u4e8b\u5148\u7ed9\u5b9a\u5408\u5e76\u540e\u7684\u6807\u7b7e": 6, "\u53ea\u5bf9\u6587\u6863\u4e2d\u4e0e": 6, "\u53ea\u62bd\u53d6\u60c5\u8282\u4e2d\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u5f53\u8f6e\u5bf9\u8bdd\u7684\u5206\u6790": 11, "\u53ea\u8f93\u51fa\u6587\u6863\u603b\u7ed3\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u5185\u5bb9": 6, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "\u53ef\u4ee5\u5f52\u7c7b\u4e3a": 6, "\u53ef\u6301\u7eed\u53d1\u5c55\u662f\u6307\u5728\u6ee1\u8db3\u5f53\u4ee3\u4eba\u7684\u9700\u6c42\u7684\u540c\u65f6": 11, "\u53ef\u80fd\u662f\u591a\u8f6e\u5bf9\u8bdd": 11, "\u53ef\u80fd\u8fd8\u5939\u6742\u7740\u4e00\u4e9b\u65e0\u52a9\u548c\u7126\u8651": 11, "\u5408\u5e76\u524d\u6807\u7b7e": 6, "\u5408\u5e76\u540e\u7684\u6807\u7b7e\u5e94\u9650\u5b9a\u5728": 6, "\u5408\u5e76\u610f\u601d\u76f8\u8fd1\u7684\u6807\u7b7e": 6, "\u540c\u65f6\u4fc3\u8fdb\u793e\u533a\u7ecf\u6d4e\u7684\u7e41\u8363": 11, "\u540c\u65f6\u5c55\u73b0\u51fa\u8bd5\u56fe\u79ef\u6781\u9762\u5bf9\u95ee\u9898\u7684\u6001\u5ea6": 11, "\u542c\u8d77\u6765\u4f60\u771f\u7684\u627f\u53d7\u4e86\u5f88\u591a": 11, "\u542c\u8d77\u6765\u5f88\u6709\u8da3": 11, "\u5443": 11, "\u548c": [6, 11], "\u5510\u50e7\u660e\u767d\u4e86\u81ea\u5df1\u7684\u8bef\u89e3": 6, "\u5510\u50e7\u8d23\u602a\u609f\u7a7a": 6, "\u56de\u7b54": 11, "\u56e2\u961f": 11, "\u56e2\u961f\u6536\u5230\u6765\u81ea\u534e\u76db\u987f\u7684\u901a\u8baf": 11, "\u56e2\u961f\u7684\u4efb\u52a1\u5df2\u7ecf\u6f14\u53d8": 11, "\u56e2\u961f\u76f4\u63a5\u53c2\u4e0e\u675c\u5c14\u585e\u884c\u52a8": 11, "\u56e2\u961f\u7ad9\u7acb\u7740": 11, "\u56e2\u961f\u88ab\u63cf\u7ed8\u6210\u4e00\u7fa4\u4ece\u88ab\u52a8\u89c2\u5bdf\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005\u7684\u4eba": 11, "\u5728\u89c2\u97f3\u83e9\u8428\u7684\u5e2e\u52a9\u4e0b": 6, "\u5728\u8bed\u8a00\u98ce\u683c": 11, "\u5730\u70b9": 11, "\u5730\u7406": 11, "\u5907\u9009\u60c5\u611f\u7c7b\u522b": 11, "\u5907\u9009\u610f\u56fe\u7c7b\u522b": 11, "\u5907\u9009\u8bdd\u9898\u7c7b\u522b": 11, "\u5916\u90e8\u5f71\u54cd": 11, "\u5982\u679c\u4e24\u4e2a\u4eba\u7269\u8eab\u4efd\u662f\u540c\u4e00\u4e2a\u4eba": 11, "\u5982\u679c\u5b58\u5728\u591a\u4e2a\u53ef\u80fd\u7684\u7b54\u6848": 11, "\u5982\u679c\u60a8\u5bf9\u8fd9\u4e9b\u4e3b\u9898\u4e0d\u592a\u719f\u6089": 11, "\u5982\u679c\u7ed9\u5b9a\u7684\u5408\u5e76\u540e\u7684\u6807\u7b7e\u4e2d\u6709\u7c7b\u4f3c": 6, "\u5982\u7edf\u4e00\u6587\u5b57": 11, "\u5b57\u4ee5\u5185": 6, "\u5b57\u6570\u9650\u5236\u5728": 6, "\u5b59\u609f\u7a7a": 6, "\u5b66\u4e60": 6, "\u5b66\u4e60\u5f52\u7c7b\u4e3a\u5176\u4ed6": 6, "\u5b66\u4e60\u673a\u5668\u5b66\u4e60\u901a\u5e38\u9700\u8981\u4e00\u5b9a\u7684\u6570\u5b66\u57fa\u7840": 11, "\u5b66\u4e60\u673a\u5668\u5b66\u4e60\u9700\u8981\u4ec0\u4e48\u6837\u7684\u6570\u5b66\u57fa\u7840": 11, "\u5b81\u590f": 11, "\u5b83\u5305\u62ec\u7ecf\u6d4e\u53d1\u5c55": 11, "\u5b83\u6db5\u76d6\u4e86\u57fa\u7840\u77e5\u8bc6\u548c\u4e00\u4e9b\u5b9e\u9645\u6848\u4f8b": 11, "\u5b83\u7684\u89c4\u6a21\u548c\u4fee\u5efa\u6280\u672f\u76f8\u5bf9\u8f83\u4e3a\u7b80\u964b": 11, "\u5b83\u8bb2\u8ff0\u4e86\u8d3e\u5b9d\u7389": 11, "\u5b83\u9700\u8981\u4e00\u79cd\u65b0\u7684\u89c6\u89d2": 11, "\u5b87\u5b99\u610f\u4e49": 11, "\u5bf9": 11, "\u5bf9\u56de\u7b54\u611f\u5230\u6ee1\u610f": 11, "\u5bf9\u6587\u672c\u7684\u60c5\u8282\u8fdb\u884c\u5206\u70b9\u603b\u7ed3": 11, "\u5bf9\u8bdd\u4e2d\u7684\u7d27\u5f20\u60c5\u7eea\u901a\u8fc7\u561f\u561f\u58f0\u548c\u9759\u7535\u566a\u97f3\u8d2f\u7a7f\u59cb\u7ec8": 11, "\u5bf9\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u5bfc\u81f4\u7528\u6237\u60c5\u7eea\u76f4\u7ebf\u4e0b\u964d": 11, "\u5c06\u5176\u66f4\u52a0\u8be6\u7ec6\u5177\u4f53": 11, "\u5c06\u65e0\u6cd5\u5f52\u7c7b\u7684\u6807\u7b7e\u5408\u5e76\u5230": 6, "\u5c06\u8fd9\u4e9b\u6587\u6863\u6574\u5408\u6210\u4e00\u4e2a\u6587\u6863\u603b\u7ed3": 6, "\u5c0f\u7ec4\u5f00\u59cb\u5904\u7406\u9010\u6e10\u6210\u5f62\u7684\u8b66\u544a": 11, "\u5c3d\u91cf\u4e0d\u8981\u9057\u6f0f\u5185\u5bb9": 11, "\u5c3d\u91cf\u4f7f\u7528\u539f\u6587\u4e13\u6709\u540d\u8bcd": 6, "\u5c55\u793a\u4e86\u4ed6\u4eec\u89d2\u8272\u7684\u52a8\u6001\u53d8\u5316": 11, "\u5c71\u897f": 11, "\u5e08\u5085\u66f4\u52a0\u4e0d\u6ee1": 6, "\u5e08\u7236\u662f\u5510\u50e7\u7384\u5958": 6, "\u5e0c\u671b\u4e86\u89e3\u5b66\u4e60\u673a\u5668\u5b66\u4e60\u6240\u9700\u7684\u524d\u63d0\u6761\u4ef6": 11, "\u5e0c\u671b\u4e86\u89e3\u6709\u5173\u673a\u5668\u5b66\u4e60\u7684\u57fa\u7840\u77e5\u8bc6": 11, "\u5e0c\u671b\u83b7\u53d6\u5173\u4e8e\u673a\u5668\u5b66\u4e60\u7684\u5165\u95e8\u8d44\u6e90": 11, "\u5e2e\u6211\u89e3\u91ca\u4e00\u4e0b": 11, "\u5e76\u4e14\u4ece\u539f\u6587\u6458\u5f55\u6700\u80fd\u8bf4\u660e\u8be5": 11, "\u5e76\u4e14\u5bf9\u5c1d\u8bd5\u653e\u677e\u7684\u65b9\u5f0f\u5931\u53bb\u4fe1\u5fc3": 11, "\u5e76\u5c06\u5176\u4e0e\u73b0\u4ee3\u957f\u57ce\u8fdb\u884c\u6bd4\u8f83": 11, "\u5e76\u62bd\u53d6\u4e0e\u60c5\u8282\u76f8\u5173\u7684\u4eba\u7269": 11, "\u5e76\u8868\u793a\u8ba1\u5212\u4ed8\u8bf8\u884c\u52a8\u6765\u8865\u5145\u6240\u9700\u7684\u57fa\u7840\u77e5\u8bc6": 11, "\u5e76\u91c7\u53d6\u4e86\u4e00\u7cfb\u5217\u91cd\u8981\u7684\u6539\u9769\u63aa\u65bd": 11, "\u5e94\u8be5\u88ab\u5f52\u4e3a": 6, "\u5ea6\u91cf\u8861\u548c\u8d27\u5e01\u7b49": 11, "\u5efa\u8bae\u5148\u4ece\u76f8\u5173\u57fa\u7840\u4e66\u7c4d\u6216\u5728\u7ebf\u8d44\u6e90\u5f00\u59cb\u5b66\u4e60": 11, "\u5f52\u4e3a\u540c\u4e00\u7c7b": 6, "\u5f52\u7c7b\u4e3a": 6, "\u5f53\u7136\u53ef\u4ee5": 11, "\u5fc5\u8981\u65f6\u53ef\u4ee5\u52a0\u4e00\u4e2a\u5f62\u5bb9\u8bcd\u6765\u63cf\u8ff0\u8fd9\u6bb5\u5173\u7cfb": 11, "\u5fc5\u987b\u6210\u5bf9\u51fa\u73b0": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f\u8f93\u51fa": 11, "\u5ff5\u7d27\u7b8d\u5492\u60e9\u7f5a": 6, "\u603b\u7ed3": [6, 11], "\u603b\u7ed3\u4e00\u4e9b\u4e0e": 6, "\u603b\u7ed3\u51fa\u76f8\u5e94\u89c4\u77e9": 11, "\u603b\u7ed3\u683c\u5f0f\u5982\u4e0b": 11, "\u603b\u7ed3\u7684\u957f\u5ea6\u4e0e\u6587\u6863\u788e\u7247\u7684\u5e73\u5747\u957f\u5ea6\u57fa\u672c\u4e00\u81f4": 6, "\u609f\u7a7a\u5c61\u6b21\u8bc6\u7834\u51fb\u6bd9\u5996\u602a\u5374\u906d\u8bef\u89e3": 6, "\u60a8\u8fd8\u53ef\u4ee5\u53c2\u8003coursera\u6216edx\u4e0a\u7684\u5728\u7ebf\u8bfe\u7a0b": 11, "\u60c5\u611f\u5206\u6790": 11, "\u60c5\u611f\u7c7b\u522b": 11, "\u60c5\u7eea\u503c": 11, "\u60c5\u7eea\u5206\u6790": 11, "\u60c5\u7eea\u6b63\u9762": 11, "\u60c5\u7eea\u7a0d\u6709\u597d\u8f6c": 11, "\u60c5\u7eea\u8fdb\u4e00\u6b65\u8f6c\u597d": 11, "\u60c5\u8282": 11, "\u60c5\u82821": 11, "\u60c5\u82822": 11, "\u60c5\u82823": 11, "\u60c5\u8282\u63cf\u8ff0": 11, "\u610f\u56fe\u5206\u6790": 11, "\u610f\u56fe\u7c7b\u522b": 11, "\u611f\u6fc0": 11, "\u6211\u4eec\u53ef\u4ee5\u786e\u4fdd\u672a\u6765\u7684\u4e16\u4ee3\u4e5f\u80fd\u4eab\u6709\u5065\u5168\u7684\u751f\u6001\u7cfb\u7edf\u548c\u7ecf\u6d4e\u5236\u5ea6": 11, "\u6211\u4f1a\u5148\u8865\u4e60\u8fd9\u4e9b\u57fa\u7840\u77e5\u8bc6": 11, "\u6211\u4f1a\u8bd5\u7740\u8ba9\u81ea\u5df1\u66f4\u6709\u6761\u7406\u4e00\u4e9b": 11, "\u6211\u5bf9\u53ef\u6301\u7eed\u53d1\u5c55\u7684\u5b9a\u4e49\u6709\u70b9\u6a21\u7cca": 11, "\u6211\u5f88\u9ad8\u5174\u80fd\u5e2e\u5230\u4f60": 11, "\u6211\u6700\u8fd1\u53d1\u73b0\u4e86\u4e00\u90e8\u65b0\u7535\u5f71": 11, "\u6211\u6700\u8fd1\u5bf9\u4eba\u5de5\u667a\u80fd\u5f88\u611f\u5174\u8da3": 11, "\u6211\u7406\u89e3\u4f60\u7684\u611f\u53d7": 11, "\u6211\u89c9\u5f97\u6574\u4e2a\u4eba\u90fd\u5feb\u88ab\u538b\u57ae\u4e86": 11, "\u6211\u8fd8\u60f3\u77e5\u9053": 11, "\u6216\u8005\u5c06\u4ed6\u4eec\u7f6e\u4e8e\u65e0\u77e5\u548c\u6f5c\u5728\u5371\u9669\u4e4b\u4e2d": 11, "\u6216\u8bb8\u4f60\u53ef\u4ee5\u5c1d\u8bd5\u89c4\u5212\u4e00\u4e0b\u65f6\u95f4": 11, "\u6240\u4ee5": 11, "\u6267\u884c\u5176\u6f14\u53d8\u540e\u7684\u76ee\u6807\u548c\u6d3b\u52a8": 11, "\u6280\u672f": 11, "\u628a\u4efb\u52a1\u5206\u6210\u5c0f\u5757\u6765\u5b8c\u6210": 11, "\u62b1\u6b49\u521a\u624d\u7684\u504f\u9898": 11, "\u6309\u7167\u4f60\u7684\u7406\u89e3": 11, "\u632b\u8d25": 11, "\u63a8\u8350\u4f60\u53bb\u770b\u770b": 11, "\u63d0\u4f9b\u7684": 11, "\u63d0\u53d6\u51fa\u6765": 11, "\u6458\u5f55\u7684\u793a\u4f8b\u5e94\u8be5\u7b80\u77ed": 11, "\u652f\u6301\u672c\u5730\u4f01\u4e1a\u6709\u52a9\u4e8e\u51cf\u5c11\u957f\u9014\u8fd0\u8f93\u4ea7\u751f\u7684\u78b3\u8db3\u8ff9": 11, "\u6587\u672c": 11, "\u6587\u6863\u788e\u7247": 6, "\u65b0\u751f\u6210\u7684": 11, "\u65e0\u529b": 11, "\u65e0\u52a9": 11, "\u660e\u767d\u4e86": 11, "\u660e\u957f\u57ce\u4e0d\u4ec5\u89c4\u6a21\u66f4\u5927": 11, "\u662f": 11, "\u662f\u4e2d\u56fd\u53e4\u5178\u5c0f\u8bf4\u56db\u5927\u540d\u8457\u4e4b\u4e00": 11, "\u6635\u79f0": 11, "\u663e\u7136": 11, "\u663e\u793a\u51fa\u76ee\u6807\u548c\u6d3b\u52a8\u7684\u91cd\u5927\u8f6c\u53d8": 11, "\u666e\u901a\u4eba\u53ef\u4ee5\u901a\u8fc7\u51cf\u5c11\u4e00\u6b21\u6027\u4ea7\u54c1\u7684\u4f7f\u7528": 11, "\u66fe\u62dc\u83e9\u63d0\u7956\u5e08\u5b66\u827a": 6, "\u6700\u4e3a\u76f8\u5173\u7684": 6, "\u6700\u6015\u89c2\u4e16\u97f3\u83e9\u8428\u548c\u7d27\u7b8d\u5492": 6, "\u6700\u76f8\u5173\u7684\u4e00\u4e9b": 6, "\u6700\u7ec8\u89c2\u97f3\u76f8\u52a9\u771f\u76f8\u5927\u767d": 6, "\u6700\u8fd1\u5de5\u4f5c\u538b\u529b\u597d\u5927": 11, "\u6709\u4efb\u4f55\u9700\u8981\u968f\u65f6\u53ef\u4ee5\u8ddf\u6211\u8bf4\u54e6": 11, "\u6709\u5173\u7684\u5185\u5bb9\u8fdb\u884c\u603b\u7ed3": 6, "\u6709\u5173\u7cfb": 6, "\u6709\u5173\u8054": 6, "\u6709\u5f88\u591a\u4e0d\u9519\u7684\u5165\u95e8\u4e66\u7c4d\u548c\u8d44\u6e90": 11, "\u6709\u610f\u601d": 11, "\u6709\u632b\u8d25\u611f": 11, "\u6709\u65f6\u5019\u538b\u529b\u79ef\u7d2f\u5230\u4e00\u5b9a\u7a0b\u5ea6\u786e\u5b9e\u8ba9\u4eba\u96be\u4ee5\u627f\u53d7": 11, "\u6709\u6ca1\u6709\u63a8\u8350\u7684\u5165\u95e8\u4e66\u7c4d\u6216\u8d44\u6599": 11, "\u6709\u6ca1\u6709\u8003\u8651\u8fc7\u627e\u4e00\u4e9b\u653e\u677e\u7684\u65b9\u5f0f": 11, "\u672c\u5730\u4f01\u4e1a\u4e5f\u66f4\u6709\u53ef\u80fd\u91c7\u7528\u53ef\u6301\u7eed\u7684\u751f\u4ea7\u65b9\u5f0f": 11, "\u673a\u5668\u5b66\u4e60\u662f\u4e00\u79cd\u4eba\u5de5\u667a\u80fd\u65b9\u6cd5": 11, "\u675c\u5c14\u585e\u884c\u52a8": 11, "\u675c\u5c14\u585e\u884c\u52a8\u88ab\u63cf\u8ff0\u4e3a\u4e00\u9879\u5df2\u6f14\u53d8\u4e3a\u4e92\u52a8\u548c\u51c6\u5907\u7684\u4efb\u52a1": 11, "\u6797\u9edb\u7389\u7b49\u4eba\u7684\u7231\u60c5\u6545\u4e8b\u53ca\u56db\u5927\u5bb6\u65cf\u7684\u5174\u8870\u5386\u7a0b": 11, "\u6807\u7b7e\u5408\u5e76": 6, "\u6839\u636e\u63d0\u4f9b\u7684\u4fe1\u606f": 11, "\u6839\u636e\u76f8\u5173\u6587\u6863\u603b\u7ed3": 6, "\u6839\u672c\u662f\u7b54\u975e\u6240\u95ee": 11, "\u6885\u745f\u540e\u6765\u7684\u76f4\u89c9\u5360\u636e\u4e86\u4e0a\u98ce": 11, "\u6982\u7387\u8bba\u548c\u7edf\u8ba1\u5b66": 11, "\u6b64\u5916": 11, "\u6bcf\u4e00\u6bb5\u957f\u57ce\u90fd\u5efa\u5728\u5173\u952e\u7684\u6218\u7565\u4f4d\u7f6e": 11, "\u6bcf\u5929\u7684\u4e8b\u60c5\u90fd\u5806\u79ef\u5982\u5c71": 11, "\u6bd4\u5982\u542c\u97f3\u4e50\u6216\u8005\u6563\u6b65\u6765\u51cf\u8f7b\u538b\u529b\u5462": 11, "\u6c14\u5019\u53d8\u5316": 6, "\u6c14\u5019\u53d8\u5316\u5f52\u7c7b\u4e3a\u5176\u4ed6": 6, "\u6ce8\u610f": 11, "\u6ce8\u610f\u76f8\u5173\u4eba\u7269\u9700\u8981\u5728\u5bf9\u5e94\u60c5\u8282\u4e2d\u51fa\u73b0": 11, "\u6ce8\u610f\u8981\u5c3d\u53ef\u80fd\u4fdd\u7559\u6587\u672c\u7684\u4e13\u6709\u540d\u8bcd": [6, 11], "\u6ce8\u610f\u8f93\u51fa\u7684\u662f": 11, "\u6d89\u53ca\u5230\u5730\u7406\u77e5\u8bc6": 11, "\u6d89\u53ca\u5efa\u7b51\u5386\u53f2\u548c\u5730\u7406\u4f4d\u7f6e": 11, "\u7126\u8651": 11, "\u7136\u540e\u5199\u51fa\u4e00\u4e2a\u65b0\u7684": 11, "\u7136\u540e\u5217\u51fa\u7528\u6237\u6240\u5177\u6709\u7684\u610f\u56fe": 11, "\u7136\u540e\u5217\u51fa\u7528\u6237\u6b63\u5728\u8ba8\u8bba\u7684\u8bdd\u9898": 11, "\u7136\u540e\u786e\u5b9a\u7528\u6237\u7684\u60c5\u7eea\u503c": 11, "\u7136\u540e\u7f57\u5217\u7528\u6237\u6240\u5177\u6709\u7684\u60c5\u7eea": 11, "\u7279\u522b\u662f\u5728\u6570\u5b66\u65b9\u9762": 11, "\u7279\u522b\u662f\u738b\u7199\u51e4\u4e0e\u5c24\u4e8c\u59d0\u4e4b\u95f4\u7684\u4e89\u6597": 11, "\u7279\u522b\u662f\u7ebf\u6027\u4ee3\u6570": 11, "\u73b0\u4ee3\u4eba\u6240\u770b\u5230\u7684\u957f\u57ce\u5927\u90e8\u5206\u662f\u660e\u671d\u65f6\u671f\u4fee\u5efa\u548c\u6269\u5efa\u7684": 11, "\u7518\u8083\u548c\u5317\u4eac\u7b49": 11, "\u751f\u52a8\u63cf\u7ed8\u4e86\u6743\u529b\u4e89\u593a\u4e0b\u7684\u5973\u6027\u5f62\u8c61": 11, "\u751f\u6210\u7684": 11, "\u7528\u6237": 11, "\u7528\u6237\u5728\u5bfb\u6c42\u4fe1\u606f": 11, "\u7528\u6237\u5728\u8bf7\u6c42\u4fe1\u606f": 11, "\u7528\u6237\u5728\u8bf7\u6c42\u5efa\u8bae": 11, "\u7528\u6237\u5bf9\u5efa\u8bae\u8868\u73b0\u51fa\u8ba4\u540c\u548c\u611f\u6fc0": 11, "\u7528\u6237\u60c5\u7eea\u503c\u662f": 11, "\u7528\u6237\u60c5\u7eea\u5448\u4e2d\u6027": 11, "\u7528\u6237\u611f\u5230\u65e0\u529b\u89e3\u51b3\u73b0\u72b6": 11, "\u7528\u6237\u63d0\u5230\u79e6\u59cb\u7687": 11, "\u7528\u6237\u63d0\u5230\u79e6\u59cb\u7687\u4fee\u5efa\u7684\u957f\u57ce": 11, "\u7528\u6237\u7684\u8a00\u8bed\u4e2d\u900f\u9732\u51fa\u660e\u663e\u7684\u538b\u529b\u548c\u75b2\u60eb\u611f": 11, "\u7528\u6237\u8868\u8fbe\u611f\u8c22": 11, "\u7528\u6237\u8be2\u95ee\u957f\u57ce\u7684\u5177\u4f53\u4f4d\u7f6e": 11, "\u7531\u6e05\u4ee3\u4f5c\u5bb6\u66f9\u96ea\u82b9\u521b\u4f5c": 11, "\u75b2\u60eb": 11, "\u7684": [6, 11], "\u7684\u4ec0\u4e48\u5173\u7cfb": 11, "\u7684\u4ee3\u8868\u6027\u793a\u4f8b": 11, "\u7684\u6587\u672c\u4fe1\u606f": 11, "\u7684\u6635\u79f0": 11, "\u7684\u76f8\u5173\u6587\u6863": 6, "\u7684\u8bdd\u9898\u6216\u9886\u57df": 11, "\u76f4\u63a5\u8f93\u51fa\u4f18\u5316\u540e\u7684\u95ee\u7b54\u5bf9": 11, "\u76f8\u5173\u4eba\u7269": 11, "\u76f8\u5173\u7684\u4e00\u4e9b\u6587\u6863": 6, "\u76f8\u540c\u7684\u8bf4\u8bdd\u4eba\u548c\u88ab\u79f0\u547c\u4eba\u6700\u591a\u7ed9\u51fa\u4e00\u4e2a\u6700\u5e38\u7528\u7684\u79f0\u547c": 11, "\u771f\u76f8\u5927\u767d": 6, "\u793e\u4f1a\u53d1\u5c55\u548c\u73af\u5883\u4fdd\u62a4\u4e09\u4e2a\u4e3b\u8981\u65b9\u9762": 11, "\u79d1\u5b66\u521b\u65b0": 6, "\u79d1\u5b66\u521b\u65b0\u5f52\u7c7b\u4e3a\u79d1\u6280": 6, "\u79d1\u6280": 6, "\u79e6\u59cb\u7687\u4fee\u5efa\u7684\u957f\u57ce\u548c\u73b0\u5728\u7684\u957f\u57ce\u6709\u4ec0\u4e48\u533a\u522b": 11, "\u79e6\u59cb\u7687\u65f6\u671f\u4fee\u5efa\u7684\u957f\u57ce\u4e3b\u8981\u662f\u4e3a\u4e86\u62b5\u5fa1\u5317\u65b9\u6e38\u7267\u6c11\u65cf\u7684\u5165\u4fb5": 11, "\u79e6\u59cb\u7687\u662f\u4e2d\u56fd\u5386\u53f2\u4e0a\u7b2c\u4e00\u4e2a\u7edf\u4e00\u5168\u56fd\u7684\u7687\u5e1d": 11, "\u79ef\u6781": 11, "\u79ef\u6781\u53c2\u4e0e": 11, "\u79f0\u4e3a": 11, "\u79f0\u547c\u65b9\u5f0f": 11, "\u79f0\u547c\u65b9\u5f0f1": 11, "\u79f0\u547c\u65b9\u5f0f2": 11, "\u79f0\u547c\u65b9\u5f0f3": 11, "\u7acb\u573a\u7b49\u4efb\u4e00\u65b9\u9762\u4e0e\u539f\u56de\u7b54\u76f8\u53cd": 11, "\u7b26\u5408\u539f\u6587\u4e8b\u5b9e": 11, "\u7b97\u4f60\u80fd\u591f\u63b0\u56de\u6765": 11, "\u7c7b\u522b": 6, "\u7ea2\u697c\u68a6": 11, "\u7ec4\u7ec7": 11, "\u7ed3\u6784\u66f4\u575a\u56fa": 11, "\u7ed9\u5b9a\u4e00\u4e9b\u6587\u6863\u788e\u7247": 6, "\u7ed9\u5b9a\u4e00\u4e9b\u6807\u7b7e\u4ee5\u53ca\u8fd9\u4e9b\u6807\u7b7e\u51fa\u73b0\u7684\u9891\u6b21": 6, "\u7ed9\u5b9a\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u4e0e": 6, "\u7ed9\u5b9a\u4f60\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u5173\u4e8e": 11, "\u7edf\u4e00\u5f52\u7c7b\u4e3a": 6, "\u800c": 11, "\u800c\u4e0d\u662f": 11, "\u800c\u4e14": 11, "\u800c\u4e14\u4fdd\u5b58\u5f97\u6bd4\u8f83\u5b8c\u597d": 11, "\u800c\u662f\u4e92\u52a8\u548c\u51c6\u5907": 11, "\u8054\u7cfb\u4e0a\u4e0b\u6587": 6, "\u8054\u7cfb\u4e0a\u4e0b\u6587\u8bf4\u660e\u524d\u56e0\u540e\u679c": 11, "\u80fd\u7ed9\u6211\u8bb2\u8bb2\u4ec0\u4e48\u662f\u673a\u5668\u5b66\u4e60\u5417": 11, "\u80fd\u8be6\u7ec6\u8bf4\u8bf4\u4e3a\u4ec0\u4e48\u8fd9\u5bf9\u53ef\u6301\u7eed\u53d1\u5c55\u6709\u4fc3\u8fdb\u4f5c\u7528\u5417": 11, "\u81ea\u52a8\u5ffd\u7565\u4e0a\u4e0b\u6587\u4e0d\u4e00\u81f4\u7684\u7ec6\u8282\u9519\u8bef": 6, "\u81ea\u77f3\u5934\u4e2d\u5b55\u80b2\u800c\u751f": 6, "\u81ea\u8ba4\u6597\u6218\u80dc\u4f5b": 6, "\u8282\u7ea6\u7528\u6c34": 11, "\u82b1\u679c\u5c71\u6c34\u5e18\u6d1e\u7684\u7f8e\u7334\u738b": 6, "\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u4e4c\u5170\u5df4\u6258": 11, "\u867d\u7136\u5b83\u662f\u79d1\u5e7b\u7247": 11, "\u8868\u660e\u5176\u5728\u51b3\u7b56\u8fc7\u7a0b\u4e2d\u7684\u91cd\u8981\u6027": 11, "\u88ab\u5b59\u609f\u7a7a\u8bc6\u7834\u6253\u6b7b": 6, "\u88ab\u79f0\u547c\u4eba": 11, "\u897f\u884c\u53d6\u7ecf\u961f\u4f0d\u4e2d\u7684\u5927\u5e08\u5144": 6, "\u8981\u6c42\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 6, "\u89c9\u5f97\u56de\u7b54\u5b9e\u7528\u4e14\u5177\u4f53": 11, "\u8ba4\u540c": 11, "\u8bb0\u5f97\u7ed9\u81ea\u5df1\u4e00\u4e9b\u65f6\u95f4\u53bb\u9002\u5e94\u65b0\u7684\u8ba1\u5212": 11, "\u8bb2\u8ff0\u4e86\u4e00\u4e2a\u5173\u4e8e\u5916\u661f\u4eba\u548c\u5730\u7403\u571f\u8457\u5408\u4f5c\u4fdd\u62a4\u73af\u5883\u7684\u6545\u4e8b": 11, "\u8bd5\u8fc7\u4e86": 11, "\u8bdd\u9898\u5206\u6790": 11, "\u8bdd\u9898\u7c7b\u522b": 11, "\u8bf4\u8bdd\u4eba": 11, "\u8bf7\u4e0d\u8981\u8f93\u51fa\u4e92\u76f8\u6ca1\u6709\u6635\u79f0\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u8bf7\u4f18\u5316\u8f93\u5165\u7684\u95ee\u7b54\u5bf9": 11, "\u8bf7\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u8bf7\u4f60\u4ed4\u7ec6\u89c2\u5bdf\u591a\u4e2a\u793a\u4f8b\u6570\u636e\u7684\u8f93\u5165\u548c\u8f93\u51fa": 11, "\u8bf7\u5224\u65ad\u7528\u6237\u548cllm\u591a\u8f6e\u5bf9\u8bdd\u4e2d\u7528\u6237\u6240\u5177\u6709\u7684\u60c5\u7eea": 11, "\u8bf7\u5224\u65ad\u7528\u6237\u548cllm\u591a\u8f6e\u5bf9\u8bdd\u4e2d\u7528\u6237\u6240\u8ba8\u8bba\u7684\u8bdd\u9898": 11, "\u8bf7\u5224\u65ad\u7528\u6237\u548cllm\u591a\u8f6e\u5bf9\u8bdd\u4e2d\u7528\u6237\u7684\u60c5\u7eea\u53d8\u5316": 11, "\u8bf7\u5224\u65ad\u7528\u6237\u548cllm\u591a\u8f6e\u5bf9\u8bdd\u4e2d\u7528\u6237\u7684\u610f\u56fe": 11, "\u8bf7\u6309\u7167\u4eba\u7269\u7684\u91cd\u8981\u6027\u8fdb\u884c\u6392\u5e8f": 6, "\u8bf7\u6839\u636e\u63d0\u4f9b\u7684": 11, "\u8bf7\u6a21\u4eff\u6837\u4f8b\u683c\u5f0f\u8f93\u51fa": 11, "\u8bf7\u6c42\u5efa\u8bae": 11, "\u8bf7\u9009\u62e9\u6700\u8d34\u8fd1\u603b\u7ed3\u610f\u601d\u7684\u90a3\u4e2a": 11, "\u8bf7\u95ee\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u54ea\u91cc": 11, "\u8c22\u8c22\u4f60\u7684\u5efa\u8bae": 11, "\u8c22\u8c22\u4f60\u7684\u89e3\u91ca": 11, "\u8d8a\u91cd\u8981\u4eba\u7269\u5728\u5217\u8868\u8d8a\u524d\u9762": 6, "\u8ddf": 6, "\u8ddf\u5176\u4ed6\u6807\u7b7e\u5173\u8054\u5ea6\u4e0d\u5f3a": 6, "\u8f93\u51fa\u5173\u7cfb\u4e3a": 11, "\u8f93\u51fa\u5173\u7cfb\u65f6\u4e0d\u8981\u53c2\u6742\u4efb\u4f55\u6807\u70b9\u7b26\u53f7": 11, "\u8f93\u51fa\u683c\u5f0f\u4e3a": 11, "\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 11, "\u8fd8\u4ee5\u5176\u7cbe\u7f8e\u7684\u8bd7\u8bcd\u95fb\u540d": 11, "\u8fd8\u6709": 6, "\u8fd8\u6ca1\u5f97\u5230llm\u56de\u590d": 11, "\u8fd8\u884c\u5427": 11, "\u8fd9\u4e00\u4f7f\u547d\u7684\u63d0\u5347\u4e0d\u80fd\u88ab\u89c4\u5219\u548c\u65e2\u5b9a\u534f\u8bae\u6240\u675f\u7f1a": 11, "\u8fd9\u4e00\u70b9\u6211\u5f88\u611f\u5174\u8da3": 11, "\u8fd9\u4e09\u4e2a\u6807\u7b7e\u6bd4\u8f83\u76f8\u8fd1": 6, "\u8fd9\u4e2a\u4e3b\u610f\u4e0d\u9519": 11, "\u8fd9\u4e9b\u6570\u5b66\u9886\u57df\u5e2e\u52a9\u7406\u89e3\u7b97\u6cd5\u7684\u5de5\u4f5c\u539f\u7406\u548c\u6570\u636e\u6a21\u5f0f\u5206\u6790": 11, "\u8fd9\u4e9b\u8bd7\u8bcd\u4e0d\u4ec5\u589e\u6dfb\u4e86\u6587\u5b66\u8272\u5f69": 11, "\u8fd9\u4e9b\u8bfe\u7a0b\u63d0\u4f9b\u4e86\u7cfb\u7edf\u7684\u5b66\u4e60\u8def\u5f84": 11, "\u8fd9\u5f71\u54cd\u4e86\u4ed6\u4eec\u7684\u51b3\u7b56\u8fc7\u7a0b": 11, "\u8fd9\u662f\u4e2d\u56fd\u5386\u53f2\u4e0a\u7b2c\u4e00\u4f4d\u7687\u5e1d": 11, "\u8fd9\u6837\u53ef\u80fd\u4f1a\u51cf\u5c11\u4e00\u4e9b\u538b\u529b\u611f": 11, "\u8fd9\u79cd\u57fa\u8c03\u4e0d\u662f\u7531\u4e16\u4fd7\u8bbe\u5b9a\u7684": 11, "\u8fd9\u79cd\u6807\u7b7e": 6, "\u8fd9\u8fb9\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u5f3a\u589e\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6fd6\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u6709\u4f0d\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fdb\u884c\u6821\u51c6": 11, "\u9009\u62e9\u516c\u5171\u4ea4\u901a\u6216\u62fc\u8f66": 11, "\u901a\u8fc7\u5408\u7406\u5229\u7528\u8d44\u6e90\u548c\u4fdd\u62a4\u73af\u5883": 11, "\u9047\u4e0a\u4e86\u53d8\u5316\u591a\u7aef\u7684\u767d\u9aa8\u7cbe": 6, "\u9075\u5faa\u5982\u4e0b\u7684\u56de\u590d\u683c\u5f0f": 11, "\u90a3\u4e48\u957f\u57ce\u7684\u5177\u4f53\u4f4d\u7f6e\u5728\u54ea\u4e9b\u7701\u4efd\u5462": 11, "\u90a3\u4f60\u80fd\u544a\u8bc9\u6211\u4e00\u4e9b\u666e\u901a\u4eba\u53ef\u4ee5\u91c7\u53d6\u7684\u53ef\u6301\u7eed\u751f\u6d3b\u65b9\u5f0f\u5417": 11, "\u90fd\u5c5e\u4e8e": 6, "\u90fd\u66f4\u52a0\u8be6\u7ec6": 11, "\u90fd\u8ddf": 6, "\u9488\u5bf9\u7528\u6237\u7684\u6bcf\u4e2aqueri": 11, "\u957f\u57ce\u6a2a\u8de8\u4e2d\u56fd\u5317\u65b9\u591a\u4e2a\u7701\u4efd": 11, "\u95ee\u9898": 11, "\u95ee\u9898\u504f\u9898\u5f97\u5230\u7ea0\u6b63": 11, "\u95ee\u9898\u5f97\u5230\u89e3\u7b54": 11, "\u9655\u897f": 11, "\u9700\u8981\u4f60\u8fdb\u884c\u5408\u7406\u7684\u63a8\u7406\u624d\u80fd\u5f97\u51fa\u7ed3\u8bba": 11, "\u9700\u8981\u5148\u8fdb\u884c\u5206\u6790": 11, "\u9700\u8981\u5728": 11, "\u9700\u8981\u5c06\u5408\u5e76\u524d\u7684\u6807\u7b7e\u6620\u5c04\u5230\u8fd9\u4e9b\u6807\u7b7e": 6, "\u9700\u8981\u6b63\u786e\u56de\u7b54\u751f\u6210\u7684": 11, "\u9700\u8981\u6ee1\u8db3\u5982\u4e0b\u8981\u6c42": 11, "\u9700\u8981\u751f\u6210\u5408\u7406\u7684\u6807\u7b7e\u7c7b\u522b": 6, "\u9700\u8981\u7ed9\u51fa\u8bf4\u8bdd\u4eba\u5bf9\u88ab\u79f0\u547c\u4eba\u7684\u79f0\u547c": 11, "\u9762\u4e34\u8fd9\u79cd\u60c5\u51b5\u786e\u5b9e\u4e0d\u5bb9\u6613": 11, "\u9891\u6b21": 6}, "titles": ["data_juicer package", "data_juicer.analysis package", "data_juicer.config package", "data_juicer.core package", "data_juicer.format package", "data_juicer.ops package", "data_juicer.ops.aggregator package", "data_juicer.ops.common package", "data_juicer.ops.deduplicator package", "data_juicer.ops.filter package", "data_juicer.ops.grouper package", "data_juicer.ops.mapper package", "data_juicer.ops.selector package", "data_juicer.tools package", "data_juicer.utils package", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "titleterms": {"": 15, "adapt": 3, "aggreg": 6, "alphanumeric_filt": 9, "analysi": 1, "analyz": 3, "api": 15, "asset_util": 14, "audio_duration_filt": 9, "audio_ffmpeg_wrapped_mapp": 11, "audio_nmf_snr_filt": 9, "audio_size_filt": 9, "auto_install_map": 14, "auto_install_util": 14, "availability_util": 14, "average_line_length_filt": 9, "base_op": 5, "cache_util": 14, "calibrate_qa_mapp": 11, "calibrate_query_mapp": 11, "calibrate_response_mapp": 11, "character_repetition_filt": 9, "chinese_convert_mapp": 11, "ckpt_util": 14, "clean_copyright_mapp": 11, "clean_email_mapp": 11, "clean_html_mapp": 11, "clean_ip_mapp": 11, "clean_links_mapp": 11, "collector": 1, "column_wise_analysi": 1, "common": 7, "common_util": 14, "compress": 14, "config": 2, "constant": 14, "content": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "core": 3, "csv_formatt": 4, "data": [3, 15], "data_juic": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16], "dedupl": 8, "dialog_intent_detection_mapp": 11, "dialog_sentiment_detection_mapp": 11, "dialog_sentiment_intensity_mapp": 11, "dialog_topic_detection_mapp": 11, "diversity_analysi": 1, "document": 15, "document_dedupl": 8, "document_minhash_dedupl": 8, "document_simhash_dedupl": 8, "draw": 1, "empty_formatt": 4, "entity_attribute_aggreg": 6, "executor": 3, "expand_macro_mapp": 11, "export": 3, "extract_entity_attribute_mapp": 11, "extract_entity_relation_mapp": 11, "extract_event_mapp": 11, "extract_keyword_mapp": 11, "extract_nickname_mapp": 11, "extract_support_text_mapp": 11, "file_util": 14, "filter": 9, "fingerprint_util": 14, "fix_unicode_mapp": 11, "flagged_words_filt": 9, "format": 4, "formatt": 4, "frequency_specified_field_selector": 12, "generate_qa_from_examples_mapp": 11, "generate_qa_from_text_mapp": 11, "grouper": 10, "helper_func": 7, "image_aesthetics_filt": 9, "image_aspect_ratio_filt": 9, "image_blur_mapp": 11, "image_captioning_from_gpt4v_mapp": 11, "image_captioning_mapp": 11, "image_dedupl": 8, "image_diffusion_mapp": 11, "image_face_blur_mapp": 11, "image_face_count_filt": 9, "image_face_ratio_filt": 9, "image_nsfw_filt": 9, "image_pair_similarity_filt": 9, "image_shape_filt": 9, "image_size_filt": 9, "image_tagging_mapp": 11, "image_text_matching_filt": 9, "image_text_similarity_filt": 9, "image_watermark_filt": 9, "indic": 15, "json_formatt": 4, "juicer": 15, "key_value_group": 10, "language_id_score_filt": 9, "lazy_load": 14, "load": [4, 5], "logger_util": 14, "mapper": 11, "maximum_line_length_filt": 9, "measur": 1, "meta_tags_aggreg": 6, "mixture_formatt": 4, "mm_util": 14, "model_util": 14, "modul": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "monitor": 3, "most_relavant_entities_aggreg": 6, "naive_group": 10, "naive_reverse_group": 10, "nested_aggreg": 6, "nlpaug_en_mapp": 11, "nlpcda_zh_mapp": 11, "op": [5, 6, 7, 8, 9, 10, 11, 12], "op_fus": 5, "optimize_qa_mapp": 11, "optimize_query_mapp": 11, "optimize_response_mapp": 11, "overall_analysi": 1, "packag": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "pair_preference_mapp": 11, "parquet_formatt": 4, "perplexity_filt": 9, "phrase_grounding_recall_filt": 9, "process_util": 14, "punctuation_normalization_mapp": 11, "python_file_mapp": 11, "python_lambda_mapp": 11, "query_intent_detection_mapp": 11, "query_sentiment_detection_mapp": 11, "query_topic_detection_mapp": 11, "random_selector": 12, "range_specified_field_selector": 12, "ray_basic_dedupl": 8, "ray_bts_minhash_dedupl": 8, "ray_data": 3, "ray_document_dedupl": 8, "ray_executor": 3, "ray_image_dedupl": 8, "ray_video_dedupl": 8, "refer": 15, "registri": 14, "relation_identity_mapp": 11, "remove_bibliography_mapp": 11, "remove_comments_mapp": 11, "remove_header_mapp": 11, "remove_long_words_mapp": 11, "remove_non_chinese_character_mapp": 11, "remove_repeat_sentences_mapp": 11, "remove_specific_chars_mapp": 11, "remove_table_text_mapp": 11, "remove_words_with_incorrect_substrings_mapp": 11, "replace_content_mapp": 11, "resource_util": 14, "selector": 12, "sentence_split_mapp": 11, "special_charact": 7, "special_characters_filt": 9, "specified_field_filt": 9, "specified_numeric_field_filt": 9, "stopwords_filt": 9, "submodul": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "subpackag": [0, 5], "suffix_filt": 9, "tabl": 15, "tags_specified_field_selector": 12, "text_action_filt": 9, "text_chunk_mapp": 11, "text_entity_dependency_filt": 9, "text_formatt": 4, "text_length_filt": 9, "token_num_filt": 9, "tool": 13, "topk_specified_field_selector": 12, "tracer": 3, "tsv_formatt": 4, "tutori": 15, "unittest_util": 14, "util": 14, "video_aesthetics_filt": 9, "video_aspect_ratio_filt": 9, "video_captioning_from_audio_mapp": 11, "video_captioning_from_frames_mapp": 11, "video_captioning_from_summarizer_mapp": 11, "video_captioning_from_video_mapp": 11, "video_dedupl": 8, "video_duration_filt": 9, "video_extract_frames_mapp": 11, "video_face_blur_mapp": 11, "video_ffmpeg_wrapped_mapp": 11, "video_frames_text_similarity_filt": 9, "video_motion_score_filt": 9, "video_motion_score_raft_filt": 9, "video_nsfw_filt": 9, "video_ocr_area_ratio_filt": 9, "video_remove_watermark_mapp": 11, "video_resize_aspect_ratio_mapp": 11, "video_resize_resolution_mapp": 11, "video_resolution_filt": 9, "video_split_by_duration_mapp": 11, "video_split_by_key_frame_mapp": 11, "video_split_by_scene_mapp": 11, "video_tagging_from_audio_mapp": 11, "video_tagging_from_frames_filt": 9, "video_tagging_from_frames_mapp": 11, "video_watermark_filt": 9, "welcom": 15, "whitespace_normalization_mapp": 11, "word_repetition_filt": 9, "words_num_filt": 9}})
\ No newline at end of file